Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Entwicklung großer Sprachmodelle (LLMs) erfordert erhebliche Rechenressourcen und ist oft mit hohen Kosten verbunden. Effizienzsteigerungen im Pre-Training sind daher von großer Bedeutung, um die Zugänglichkeit und Nachhaltigkeit dieser Technologie zu verbessern. Eine neue Methode, das Token-Superposition Training (TST), verspricht hier deutliche Fortschritte. Dieses innovative zweiphasige Pre-Training-Verfahren wurde entwickelt, um den Datendurchsatz pro FLOP signifikant zu erhöhen, ohne dabei die grundlegende Modellarchitektur, den Optimierer, den Tokenizer oder die Parallelisierungsstrategie zu modifizieren.
Das TST-Verfahren basiert auf einem zweistufigen Ansatz, der darauf abzielt, die Effizienz des Pre-Trainings zu maximieren. Die Kernidee ist, während einer initialen Phase mehrere zusammenhängende Tokens zu einer einzigen "superponierten" Einheit zusammenzufassen. Dies ermöglicht es dem Modell, in jedem Trainingsschritt eine größere Menge an Rohdaten zu verarbeiten.
In dieser ersten, hoch effizienten Phase werden mehrere zusammenhängende Tokens zu sogenannten "s-Tokens" kombiniert. Dies geschieht, indem die Embeddings dieser Tokens gemittelt werden, wodurch eine gröbere Darstellung des Inputs entsteht. Für jeden FLOP, der auf diese latenten s-Tokens angewendet wird, verarbeitet das Modell effektiv s-mal mehr Datentokens. Um einen validen Vergleich mit dem Baseline-Training unter gleichbleibenden FLOPs zu gewährleisten, wird die Sequenzlänge der Daten während dieser Phase entsprechend um den Faktor s erhöht. Dies ermöglicht eine höhere Token-Aufnahmerate bei gleichem Rechenaufwand pro Schritt.
Auf der Ausgabeseite wird anstelle einer einzelnen Next-Token-Vorhersage ein "nächster Bag-of-Tokens" vorhergesagt. Hierfür kommt ein Multi-Hot Cross-Entropy (MCE)-Verlust zum Einsatz. Dieser Verlust ist eine Modifikation des Standard-Cross-Entropy-Verlustes und ermöglicht es, mehrere gültige Ziel-Tokens gleichzeitig zu berücksichtigen. Die MCE-Loss-Funktion mittelt die individuellen Cross-Entropy-Verluste über jeden Token in der Ziel-Bag, wodurch das Modell dazu angeregt wird, allen Tokens im nächsten s-Gramm eine hohe Wahrscheinlichkeit zuzuweisen. Eine wichtige Eigenschaft des MCE-Verlustes ist, dass er die Wiederverwendung bestehender, optimierter Cross-Entropy-Kernel in gängigen Deep-Learning-Frameworks ermöglicht, was die Implementierung vereinfacht.
Nachdem ein vordefinierter Anteil der Trainingsschritte in der Superpositionsphase absolviert wurde, wechselt das Training zurück zur Standard-Next-Token-Vorhersage. In dieser Wiederherstellungsphase werden alle TST-spezifischen Modifikationen vollständig entfernt, und das Training wird von dem in Phase 1 gespeicherten Checkpoint fortgesetzt. Dies stellt sicher, dass das endgültige Modell seine vollständigen autoregressiven Fähigkeiten für die Inferenz beibehält. Die Autoren betonen, dass der Code für TST in dieser Phase vollständig entfernt wird, um eine Kontamination der Experimente und Ergebnisse zu vermeiden.
Die Wirksamkeit von TST wurde umfassend an verschiedenen Modellgrößen evaluiert, von 270 Millionen bis hin zu 10 Milliarden Parametern (MoE-Modelle). Die Experimente nutzten die TorchTitan Pre-Training-Bibliothek mit FSDP-Parallelisierung (Fully Sharded Data Parallelism) auf NVIDIA B200 GPUs. Als Datensätze kamen DCLM für kleinere Modelle und eine Mischung aus FineWeb-Edu und DCLM für größere Modelle zum Einsatz. Die Ergebnisse zeigen, dass TST konsistent den Baseline-Verlust und die Downstream-Evaluierungen übertrifft.
Eine wichtige Erkenntnis aus den Ablationsstudien ist, dass sowohl die Eingangs- als auch die Ausgangs-Superposition unabhängig voneinander zu den Vorteilen von TST beitragen und ihre Kombination die besten Ergebnisse liefert. Ferner zeigte sich, dass das Beibehalten der gemeinsamen Eingabe-Embeddings und Ausgabe-Heads über beide Phasen hinweg entscheidend für den Erfolg von TST ist. Eine zufällige Reinitialisierung dieser Schichten zu Beginn der Wiederherstellungsphase führte zu einem vollständigen Verlust der TST-Vorteile und sogar zu einer schlechteren Leistung als die Baseline. Dies deutet darauf hin, dass die interne Modellschaltung hochsensibel auf die Repräsentationen reagiert und eine konsistente Ausrichtung zwischen den Phasen unerlässlich ist.
TST unterscheidet sich von anderen Methoden, die auf Hilfsverlustfunktionen setzen (z.B. Multi-Token Prediction, MTP), indem es keine zusätzlichen Parameter oder Hilfs-Heads einführt. Stattdessen modifiziert es lediglich das Ziel des bestehenden Heads, was es effizienter und einfacher in bestehende Architekturen integrierbar macht. Die Forschung deutet darauf hin, dass TST besonders vorteilhaft ist, wenn das Pre-Training durch Rechenkapazitäten und nicht durch Datenverfügbarkeit begrenzt ist.
Zukünftige Forschungsarbeiten könnten die Skalierungsgesetze der Token-Superposition weiter untersuchen, um optimale TST-Einstellungen für noch größere Modelle vorherzusagen. Auch eine tiefere interpretative Analyse der zugrunde liegenden Mechanismen könnte das Verständnis und die Anwendungsbereiche von TST erweitern. Die Kombination von TST mit anderen Effizienzmethoden stellt ebenfalls einen vielversprechenden Forschungsbereich dar.
Insgesamt stellt Token-Superposition Training einen bedeutenden Schritt in Richtung effizienterer und zugänglicherer Pre-Training-Methoden für große Sprachmodelle dar. Durch die Reduzierung des Rechenaufwands kann diese Technologie die Entwicklung und den Einsatz von LLMs beschleunigen und gleichzeitig den Energieverbrauch senken, was weitreichende positive Auswirkungen auf die Forschungsgemeinschaft und die Industrie haben könnte.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen