Präventive Steuerung von KI-Fähigkeiten durch Token-Level-Daten-Filterung

Kategorien:

No items found.

Freigegeben:

January 31, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Eine neue Forschungsarbeit von Neil Rathi und Alec Radford stellt Token-basiertes Daten-Filtering als effektive Methode zur präventiven Steuerung von Sprachmodellfähigkeiten vor.
Im Gegensatz zu Post-hoc-Methoden, die nach dem Training angewendet werden, zielt dieser Ansatz darauf ab, unerwünschte Fähigkeiten bereits während des Vortrainings zu minimieren.
Token-Level-Filterung erweist sich als präziser und effizienter als Dokumenten-Level-Filterung, da sie unerwünschte Inhalte gezielter entfernt, ohne nützliche Informationen zu beeinträchtigen.
Die Effektivität der Token-Filterung nimmt mit der Modellgröße zu und zeigt bei großen Modellen eine signifikante Verlangsamung der Rechenleistung für den "Vergessensbereich".
Die Methode ist robust gegenüber adversen Feinabstimmungsangriffen und erleichtert die Ausrichtung von Modellen im "Vergessensbereich", indem sie beispielsweise die Verweigerung von Antworten auf sensible Anfragen verbessert.
Es wurde eine innovative Methodik zur Kennzeichnung von Tokens mittels Sparse Autoencodern und zur Destillation hochwertiger Klassifikatoren entwickelt, die auch bei verrauschten Labels funktioniert.

Die Entwicklung von Künstlicher Intelligenz, insbesondere von großen Sprachmodellen (Large Language Models, LLMs), schreitet mit bemerkenswerter Geschwindigkeit voran. Diese Modelle erwerben im Vortraining eine Vielzahl von Fähigkeiten, die sowohl gewünschte als auch potenziell unerwünschte Anwendungen umfassen können. Die Steuerung dieser Fähigkeiten stellt eine zentrale Herausforderung dar, insbesondere im Hinblick auf Sicherheit und Missbrauch. Aktuelle Ansätze zur Reduzierung unerwünschter Fähigkeiten erfolgen oft post-hoc, also nach dem eigentlichen Training des Modells. Diese Methoden können jedoch von Angreifern umgangen werden, was eine kontinuierliche Auseinandersetzung erfordert.

Ein Paradigmenwechsel in der Fähigkeitensteuerung

Der präventive Ansatz durch Token-Level-Filterung

Eine aktuelle Forschungsarbeit von Neil Rathi und Alec Radford schlägt einen präventiven Ansatz vor, der die Fähigkeiten von Sprachmodellen bereits während des Vortrainings formt. Dieser Ansatz, bekannt als Token-Level-Daten-Filterung, konzentriert sich auf die gezielte Entfernung von Daten auf Token-Ebene aus dem Vortrainingskorpus, um die Akquisition unerwünschter Fähigkeiten zu minimieren, während gewünschte Fähigkeiten erhalten bleiben. Die Studie verwendet die Entfernung medizinischer Fähigkeiten als Proxy-Aufgabe, um die Wirksamkeit dieser Methode zu demonstrieren, ohne dabei die biomedizinischen oder allgemeinen Sprachfähigkeiten zu beeinträchtigen.

Der Kern der Argumentation liegt in der Erkenntnis, dass einzelne Tokens im Vortraining unterschiedliche Einflüsse auf die Modellfähigkeiten haben können. Während bisherige Arbeiten oft auf Dokumentenebene filterten, zeigt die neue Forschung, dass eine feinere Granularität auf Token-Ebene zu präziseren Ergebnissen führt.

Vorteile der Token-Level-Filterung

Präzision und Effizienz gegenüber Dokumenten-Filterung

Die Analyse der Forscher zeigt, dass die Token-Level-Filterung der Dokumenten-Level-Filterung überlegen ist. Sie ermöglicht die gleiche Reduzierung unerwünschter Fähigkeiten (z.B. medizinischer Verluste) bei geringeren Kosten für gewünschte Fähigkeiten (z.B. biologischer Verluste). Dies ist darauf zurückzuführen, dass die Token-Filterung präziser ist und schädliche Inhalte gezielter entfernen kann, ohne große Mengen an ungefährlichem, aber potenziell relevantem Kontext zu eliminieren. Dies ist besonders wichtig in Szenarien mit begrenzten Daten, wo jeder Token zählt.

Skaleneffekte und Robustheit

Ein weiteres zentrales Ergebnis ist, dass die Effektivität der Token-Filterung mit der Modellgröße zunimmt. Bei den größten getesteten Modellen führte die Token-Filterung zu einer bis zu 7000-fachen Verlangsamung der Rechenleistung im "Vergessensbereich", verglichen mit etwa dem 30-fachen bei der Dokumenten-Filterung. Dies deutet darauf hin, dass der präventive Ansatz mit zunehmender Skalierung der Modelle noch wirksamer wird.

Darüber hinaus erwies sich die Token-Filterung als signifikant robuster gegenüber adversen Feinabstimmungsangriffen, die darauf abzielen, unerwünschte Fähigkeiten wiederherzustellen. Im Vergleich zu modernsten "Unlearning"-Methoden, die nach dem Training angewendet werden, zeigte die Token-Filterung eine bis zu 10-fach höhere Robustheit bei 1,8 Milliarden Parameter-Modellen.

Kompatibilität mit der Modell-Ausrichtung

Ein überraschendes Ergebnis der Studie ist, dass Modelle, die mit Token-Filterung trainiert wurden, immer noch effektiv im "Vergessensbereich" ausgerichtet werden können. Dies steht im Gegensatz zu früheren Annahmen, dass das Entfernen von Daten das Modell unkontrollierbar machen könnte. Tatsächlich erleichtert die Token-Level-Filterung das Training von Ablehnungsfähigkeiten, was bedeutet, dass Modelle besser darin werden, sensible oder gefährliche Anfragen abzulehnen, ohne dabei die Ausrichtung auf andere Aufgaben zu beeinträchtigen.

Methodologie und praktische Umsetzung

Kennzeichnung von Tokens und Klassifikator-Training

Die Forscher entwickelten eine Methodik zur Kennzeichnung von Tokens mithilfe von Sparse Autoencodern (SAEs) und zur Destillation hochwertiger Klassifikatoren. SAEs werden verwendet, um latente Merkmale zu identifizieren, die für den "Vergessensbereich" relevant sind. Anschließend werden diese Informationen genutzt, um Tokens im Vortrainingskorpus zu labeln. Dieser Prozess ermöglicht das Training kleiner, aufgabenspezifischer Klassifikatoren, die größere, allgemeine Modelle übertreffen und kostengünstiger sind.

Umgang mit ungenauen Labels

Eine häufige Kritik an Datenfilterungsansätzen ist die Schwierigkeit, qualitativ hochwertige Labels zu erhalten. Die Studie zeigt jedoch, dass die Token-Filterung auch bei verrauschten oder ungenauen Labels effektiv sein kann, insbesondere wenn aggressive Filterstrategien angewendet und die Modellgröße entsprechend skaliert wird. Token-Level-Klassifikatoren zeigen zudem eine bemerkenswerte Fähigkeit zur "Weak-to-Strong-Generalization", was bedeutet, dass sie auch aus grobkörnigen Labels nützliche Informationen extrahieren können, im Gegensatz zu Dokumenten-Level-Klassifikatoren.

Implikationen für die KI-Entwicklung

Die Ergebnisse dieser Forschungsarbeit haben weitreichende Implikationen für die Entwicklung sicherer und kontrollierbarer KI-Systeme. Die präventive Steuerung von Fähigkeiten durch Token-Level-Daten-Filterung bietet einen robusten und skalierbaren Ansatz, um unerwünschte Verhaltensweisen von LLMs zu minimieren, bevor sie überhaupt in den Modellen verankert werden. Dies könnte die Notwendigkeit von aufwändigen Post-hoc-Sicherheitsmaßnahmen reduzieren und die Entwicklung von Modellen fördern, die von Grund auf sicherer sind.

Es bleibt jedoch festzuhalten, dass die Filterung im Vortraining ein "grobes Instrument" darstellt. Es werden Tokens entfernt, die mit einem bestimmten Wissensgebiet in Verbindung stehen, nicht unbedingt solche, die direkt gefährliche Fähigkeiten verursachen. Zukünftige Forschung könnte sich darauf konzentrieren, die "Einflussfunktionen" von Tokens genauer zu bestimmen, um eine noch präzisere Steuerung zu ermöglichen. Des Weiteren ist die Frage der Skalierung über die aktuell untersuchten Modellgrößen hinaus von Bedeutung, um mögliche "U-förmige Skalierungseffekte" zu untersuchen, bei denen extrem große Modelle möglicherweise wieder gefährliche Fähigkeiten aus geringen Datenmengen erlernen könnten.

Zusammenfassend lässt sich sagen, dass die Token-Level-Daten-Filterung einen vielversprechenden Weg zur präventiven Gestaltung von KI-Fähigkeiten darstellt. Sie bietet eine effektive, robuste und skalierbare Methode, um die Sicherheit und Kontrolle von Sprachmodellen zu verbessern, ohne die gewünschten Anwendungsbereiche zu beeinträchtigen.

Bibliography: - Neil Rathi, Alec Radford. Shaping capabilities with token-level data filtering. arXiv, 2026. - Hugging Face. Paper page - Shaping capabilities with token-level data filtering. - AlphaXiv. Explore. - Kim Seonghyeon. 2026-01-30 - by Kim Seonghyeon - arXiv Daily. - Latent.Space. AINews: Moltbook — the first Social Network for AI Agents (Clawdbots/OpenClaw bots). - Threads. Paper: Shaping capabilities with token-level data filtering... - Threads. I do not think so... - ChatPaper. Explore and AI Chat with the Academic Papers. - arXiv. Computer Science > Computation and Language.