Neuartige Methode zur Effizienzsteigerung im Pre-Training großer Sprachmodelle

Kategorien:

No items found.

Freigegeben:

May 14, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Token-Superposition Training (TST) ist eine neue Methode zur Effizienzsteigerung im Pre-Training großer Sprachmodelle (LLMs).
TST kann die Pre-Training-Zeit um bis zu 2,5x reduzieren, ohne die Modellarchitektur, den Optimierer, den Tokenizer oder die Parallelisierungsstrategie zu ändern.
Die Methode besteht aus zwei Phasen: einer Superpositionsphase mit Multi-Hot Cross-Entropy-Verlust und einer Wiederherstellungsphase mit Standard-Next-Token-Vorhersage.
Experimente zeigten konsistente Leistungsverbesserungen und Robustheit über verschiedene Modellgrößen hinweg.
Eine entscheidende Erkenntnis ist die Notwendigkeit, Eingabe-Embeddings und Ausgabe-Heads über beide Phasen hinweg unverändert zu lassen, um die Vorteile zu erhalten.

Die Entwicklung großer Sprachmodelle (LLMs) erfordert erhebliche Rechenressourcen und ist oft mit hohen Kosten verbunden. Effizienzsteigerungen im Pre-Training sind daher von großer Bedeutung, um die Zugänglichkeit und Nachhaltigkeit dieser Technologie zu verbessern. Eine neue Methode, das Token-Superposition Training (TST), verspricht hier deutliche Fortschritte. Dieses innovative zweiphasige Pre-Training-Verfahren wurde entwickelt, um den Datendurchsatz pro FLOP signifikant zu erhöhen, ohne dabei die grundlegende Modellarchitektur, den Optimierer, den Tokenizer oder die Parallelisierungsstrategie zu modifizieren.

Grundlagen des Token-Superposition Trainings (TST)

Das TST-Verfahren basiert auf einem zweistufigen Ansatz, der darauf abzielt, die Effizienz des Pre-Trainings zu maximieren. Die Kernidee ist, während einer initialen Phase mehrere zusammenhängende Tokens zu einer einzigen "superponierten" Einheit zusammenzufassen. Dies ermöglicht es dem Modell, in jedem Trainingsschritt eine größere Menge an Rohdaten zu verarbeiten.

Phase 1: Die Superpositionsphase

In dieser ersten, hoch effizienten Phase werden mehrere zusammenhängende Tokens zu sogenannten "s-Tokens" kombiniert. Dies geschieht, indem die Embeddings dieser Tokens gemittelt werden, wodurch eine gröbere Darstellung des Inputs entsteht. Für jeden FLOP, der auf diese latenten s-Tokens angewendet wird, verarbeitet das Modell effektiv s-mal mehr Datentokens. Um einen validen Vergleich mit dem Baseline-Training unter gleichbleibenden FLOPs zu gewährleisten, wird die Sequenzlänge der Daten während dieser Phase entsprechend um den Faktor s erhöht. Dies ermöglicht eine höhere Token-Aufnahmerate bei gleichem Rechenaufwand pro Schritt.

Auf der Ausgabeseite wird anstelle einer einzelnen Next-Token-Vorhersage ein "nächster Bag-of-Tokens" vorhergesagt. Hierfür kommt ein Multi-Hot Cross-Entropy (MCE)-Verlust zum Einsatz. Dieser Verlust ist eine Modifikation des Standard-Cross-Entropy-Verlustes und ermöglicht es, mehrere gültige Ziel-Tokens gleichzeitig zu berücksichtigen. Die MCE-Loss-Funktion mittelt die individuellen Cross-Entropy-Verluste über jeden Token in der Ziel-Bag, wodurch das Modell dazu angeregt wird, allen Tokens im nächsten s-Gramm eine hohe Wahrscheinlichkeit zuzuweisen. Eine wichtige Eigenschaft des MCE-Verlustes ist, dass er die Wiederverwendung bestehender, optimierter Cross-Entropy-Kernel in gängigen Deep-Learning-Frameworks ermöglicht, was die Implementierung vereinfacht.

Phase 2: Die Wiederherstellungsphase

Nachdem ein vordefinierter Anteil der Trainingsschritte in der Superpositionsphase absolviert wurde, wechselt das Training zurück zur Standard-Next-Token-Vorhersage. In dieser Wiederherstellungsphase werden alle TST-spezifischen Modifikationen vollständig entfernt, und das Training wird von dem in Phase 1 gespeicherten Checkpoint fortgesetzt. Dies stellt sicher, dass das endgültige Modell seine vollständigen autoregressiven Fähigkeiten für die Inferenz beibehält. Die Autoren betonen, dass der Code für TST in dieser Phase vollständig entfernt wird, um eine Kontamination der Experimente und Ergebnisse zu vermeiden.

Experimentelle Ergebnisse und deren Implikationen

Die Wirksamkeit von TST wurde umfassend an verschiedenen Modellgrößen evaluiert, von 270 Millionen bis hin zu 10 Milliarden Parametern (MoE-Modelle). Die Experimente nutzten die TorchTitan Pre-Training-Bibliothek mit FSDP-Parallelisierung (Fully Sharded Data Parallelism) auf NVIDIA B200 GPUs. Als Datensätze kamen DCLM für kleinere Modelle und eine Mischung aus FineWeb-Edu und DCLM für größere Modelle zum Einsatz. Die Ergebnisse zeigen, dass TST konsistent den Baseline-Verlust und die Downstream-Evaluierungen übertrifft.

Signifikante Zeitersparnis: Bei gleicher Verlustrate konnte TST die gesamte Pre-Training-Zeit um bis zu 2,5x reduzieren, insbesondere bei Modellen mit 10 Milliarden Parametern. Beispielsweise erreichte ein 10B MoE TST-Modell eine End-Loss von 2,236 in 4768 B200-Stunden, während das Baseline-Modell für einen ähnlichen Verlust (2,252) 12311 Stunden benötigte.
Verbesserte Downstream-Leistung: TST führte nicht nur zu einer schnelleren Konvergenz des Trainingsverlustes, sondern verbesserte auch die Leistung bei nachgelagerten Aufgaben (z.B. HellaSwag, ARC, MMLU).
Robustheit der Hyperparameter: Die Methode erwies sich als robust gegenüber der Wahl der Hyperparameter für die Superpositions-Bag-Größe (s im Bereich von 4 bis 8) und das Schrittverhältnis (r im Bereich von 0,2 bis 0,4).

Eine wichtige Erkenntnis aus den Ablationsstudien ist, dass sowohl die Eingangs- als auch die Ausgangs-Superposition unabhängig voneinander zu den Vorteilen von TST beitragen und ihre Kombination die besten Ergebnisse liefert. Ferner zeigte sich, dass das Beibehalten der gemeinsamen Eingabe-Embeddings und Ausgabe-Heads über beide Phasen hinweg entscheidend für den Erfolg von TST ist. Eine zufällige Reinitialisierung dieser Schichten zu Beginn der Wiederherstellungsphase führte zu einem vollständigen Verlust der TST-Vorteile und sogar zu einer schlechteren Leistung als die Baseline. Dies deutet darauf hin, dass die interne Modellschaltung hochsensibel auf die Repräsentationen reagiert und eine konsistente Ausrichtung zwischen den Phasen unerlässlich ist.

Einordnung und Zukunftsperspektiven

TST unterscheidet sich von anderen Methoden, die auf Hilfsverlustfunktionen setzen (z.B. Multi-Token Prediction, MTP), indem es keine zusätzlichen Parameter oder Hilfs-Heads einführt. Stattdessen modifiziert es lediglich das Ziel des bestehenden Heads, was es effizienter und einfacher in bestehende Architekturen integrierbar macht. Die Forschung deutet darauf hin, dass TST besonders vorteilhaft ist, wenn das Pre-Training durch Rechenkapazitäten und nicht durch Datenverfügbarkeit begrenzt ist.

Zukünftige Forschungsarbeiten könnten die Skalierungsgesetze der Token-Superposition weiter untersuchen, um optimale TST-Einstellungen für noch größere Modelle vorherzusagen. Auch eine tiefere interpretative Analyse der zugrunde liegenden Mechanismen könnte das Verständnis und die Anwendungsbereiche von TST erweitern. Die Kombination von TST mit anderen Effizienzmethoden stellt ebenfalls einen vielversprechenden Forschungsbereich dar.

Insgesamt stellt Token-Superposition Training einen bedeutenden Schritt in Richtung effizienterer und zugänglicherer Pre-Training-Methoden für große Sprachmodelle dar. Durch die Reduzierung des Rechenaufwands kann diese Technologie die Entwicklung und den Einsatz von LLMs beschleunigen und gleichzeitig den Energieverbrauch senken, was weitreichende positive Auswirkungen auf die Forschungsgemeinschaft und die Industrie haben könnte.

Bibliographie

Peng, B., Gigant, T., & Quesnelle, J. (2026). Efficient Pre-Training with Token Superposition. arXiv preprint arXiv:2605.06546.
Hugging Face. (2026). Efficient Pre-Training with Token Superposition. Abgerufen von https://huggingface.co/papers/2605.06546
Marktechpost. (2026, 13. Mai). Nous Research Releases Token Superposition Training to Speed Up LLM Pre-Training by Up to 2.5x Across 270M to 10B Parameter Models. Abgerufen von https://www.marktechpost.com/2026/05/13/nous-research-releases-token-superposition-training-to-speed-up-llm-pre-training-by-up-to-2-5x-across-270m-to-10b-parameter-models/
The Moonlight. (o. J.). Efficient Pre-Training with Token Superposition. Abgerufen von https://www.themoonlight.io/en/review/efficient-pre-training-with-token-superposition
Summarized Science. (2026, 10. Mai). AI Training Just Got 2.5x Faster! Meet Token Superposition [Video]. YouTube. Abgerufen von https://www.youtube.com/watch?v=c8dEeaFoZvo