Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Entwicklung von Künstlicher Intelligenz, insbesondere von großen Sprachmodellen (Large Language Models, LLMs), schreitet mit bemerkenswerter Geschwindigkeit voran. Diese Modelle erwerben im Vortraining eine Vielzahl von Fähigkeiten, die sowohl gewünschte als auch potenziell unerwünschte Anwendungen umfassen können. Die Steuerung dieser Fähigkeiten stellt eine zentrale Herausforderung dar, insbesondere im Hinblick auf Sicherheit und Missbrauch. Aktuelle Ansätze zur Reduzierung unerwünschter Fähigkeiten erfolgen oft post-hoc, also nach dem eigentlichen Training des Modells. Diese Methoden können jedoch von Angreifern umgangen werden, was eine kontinuierliche Auseinandersetzung erfordert.
Eine aktuelle Forschungsarbeit von Neil Rathi und Alec Radford schlägt einen präventiven Ansatz vor, der die Fähigkeiten von Sprachmodellen bereits während des Vortrainings formt. Dieser Ansatz, bekannt als Token-Level-Daten-Filterung, konzentriert sich auf die gezielte Entfernung von Daten auf Token-Ebene aus dem Vortrainingskorpus, um die Akquisition unerwünschter Fähigkeiten zu minimieren, während gewünschte Fähigkeiten erhalten bleiben. Die Studie verwendet die Entfernung medizinischer Fähigkeiten als Proxy-Aufgabe, um die Wirksamkeit dieser Methode zu demonstrieren, ohne dabei die biomedizinischen oder allgemeinen Sprachfähigkeiten zu beeinträchtigen.
Der Kern der Argumentation liegt in der Erkenntnis, dass einzelne Tokens im Vortraining unterschiedliche Einflüsse auf die Modellfähigkeiten haben können. Während bisherige Arbeiten oft auf Dokumentenebene filterten, zeigt die neue Forschung, dass eine feinere Granularität auf Token-Ebene zu präziseren Ergebnissen führt.
Die Analyse der Forscher zeigt, dass die Token-Level-Filterung der Dokumenten-Level-Filterung überlegen ist. Sie ermöglicht die gleiche Reduzierung unerwünschter Fähigkeiten (z.B. medizinischer Verluste) bei geringeren Kosten für gewünschte Fähigkeiten (z.B. biologischer Verluste). Dies ist darauf zurückzuführen, dass die Token-Filterung präziser ist und schädliche Inhalte gezielter entfernen kann, ohne große Mengen an ungefährlichem, aber potenziell relevantem Kontext zu eliminieren. Dies ist besonders wichtig in Szenarien mit begrenzten Daten, wo jeder Token zählt.
Ein weiteres zentrales Ergebnis ist, dass die Effektivität der Token-Filterung mit der Modellgröße zunimmt. Bei den größten getesteten Modellen führte die Token-Filterung zu einer bis zu 7000-fachen Verlangsamung der Rechenleistung im "Vergessensbereich", verglichen mit etwa dem 30-fachen bei der Dokumenten-Filterung. Dies deutet darauf hin, dass der präventive Ansatz mit zunehmender Skalierung der Modelle noch wirksamer wird.
Darüber hinaus erwies sich die Token-Filterung als signifikant robuster gegenüber adversen Feinabstimmungsangriffen, die darauf abzielen, unerwünschte Fähigkeiten wiederherzustellen. Im Vergleich zu modernsten "Unlearning"-Methoden, die nach dem Training angewendet werden, zeigte die Token-Filterung eine bis zu 10-fach höhere Robustheit bei 1,8 Milliarden Parameter-Modellen.
Ein überraschendes Ergebnis der Studie ist, dass Modelle, die mit Token-Filterung trainiert wurden, immer noch effektiv im "Vergessensbereich" ausgerichtet werden können. Dies steht im Gegensatz zu früheren Annahmen, dass das Entfernen von Daten das Modell unkontrollierbar machen könnte. Tatsächlich erleichtert die Token-Level-Filterung das Training von Ablehnungsfähigkeiten, was bedeutet, dass Modelle besser darin werden, sensible oder gefährliche Anfragen abzulehnen, ohne dabei die Ausrichtung auf andere Aufgaben zu beeinträchtigen.
Die Forscher entwickelten eine Methodik zur Kennzeichnung von Tokens mithilfe von Sparse Autoencodern (SAEs) und zur Destillation hochwertiger Klassifikatoren. SAEs werden verwendet, um latente Merkmale zu identifizieren, die für den "Vergessensbereich" relevant sind. Anschließend werden diese Informationen genutzt, um Tokens im Vortrainingskorpus zu labeln. Dieser Prozess ermöglicht das Training kleiner, aufgabenspezifischer Klassifikatoren, die größere, allgemeine Modelle übertreffen und kostengünstiger sind.
Eine häufige Kritik an Datenfilterungsansätzen ist die Schwierigkeit, qualitativ hochwertige Labels zu erhalten. Die Studie zeigt jedoch, dass die Token-Filterung auch bei verrauschten oder ungenauen Labels effektiv sein kann, insbesondere wenn aggressive Filterstrategien angewendet und die Modellgröße entsprechend skaliert wird. Token-Level-Klassifikatoren zeigen zudem eine bemerkenswerte Fähigkeit zur "Weak-to-Strong-Generalization", was bedeutet, dass sie auch aus grobkörnigen Labels nützliche Informationen extrahieren können, im Gegensatz zu Dokumenten-Level-Klassifikatoren.
Die Ergebnisse dieser Forschungsarbeit haben weitreichende Implikationen für die Entwicklung sicherer und kontrollierbarer KI-Systeme. Die präventive Steuerung von Fähigkeiten durch Token-Level-Daten-Filterung bietet einen robusten und skalierbaren Ansatz, um unerwünschte Verhaltensweisen von LLMs zu minimieren, bevor sie überhaupt in den Modellen verankert werden. Dies könnte die Notwendigkeit von aufwändigen Post-hoc-Sicherheitsmaßnahmen reduzieren und die Entwicklung von Modellen fördern, die von Grund auf sicherer sind.
Es bleibt jedoch festzuhalten, dass die Filterung im Vortraining ein "grobes Instrument" darstellt. Es werden Tokens entfernt, die mit einem bestimmten Wissensgebiet in Verbindung stehen, nicht unbedingt solche, die direkt gefährliche Fähigkeiten verursachen. Zukünftige Forschung könnte sich darauf konzentrieren, die "Einflussfunktionen" von Tokens genauer zu bestimmen, um eine noch präzisere Steuerung zu ermöglichen. Des Weiteren ist die Frage der Skalierung über die aktuell untersuchten Modellgrößen hinaus von Bedeutung, um mögliche "U-förmige Skalierungseffekte" zu untersuchen, bei denen extrem große Modelle möglicherweise wieder gefährliche Fähigkeiten aus geringen Datenmengen erlernen könnten.
Zusammenfassend lässt sich sagen, dass die Token-Level-Daten-Filterung einen vielversprechenden Weg zur präventiven Gestaltung von KI-Fähigkeiten darstellt. Sie bietet eine effektive, robuste und skalierbare Methode, um die Sicherheit und Kontrolle von Sprachmodellen zu verbessern, ohne die gewünschten Anwendungsbereiche zu beeinträchtigen.
Bibliography: - Neil Rathi, Alec Radford. Shaping capabilities with token-level data filtering. arXiv, 2026. - Hugging Face. Paper page - Shaping capabilities with token-level data filtering. - AlphaXiv. Explore. - Kim Seonghyeon. 2026-01-30 - by Kim Seonghyeon - arXiv Daily. - Latent.Space. AINews: Moltbook — the first Social Network for AI Agents (Clawdbots/OpenClaw bots). - Threads. Paper: Shaping capabilities with token-level data filtering... - Threads. I do not think so... - ChatPaper. Explore and AI Chat with the Academic Papers. - arXiv. Computer Science > Computation and Language.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen