Das Wichtigste in Kürze
- Eine aktuelle Forschungsarbeit legt nahe, dass die Skalierung von Embeddings bei großen Sprachmodellen (LLMs) in bestimmten Szenarien effizienter sein kann als die Skalierung von Expertensystemen (MoE).
- MoE-Architekturen stoßen zunehmend an Grenzen, insbesondere in Bezug auf sinkende Erträge und Systemengpässe bei steigender Modellgröße und Sparsität.
- Die Skalierung von Embeddings, speziell N-Gram-Embeddings, bietet eine orthogonale Dimension zur Skalierung von Sparsität, mit potenziell überlegener Effizienz.
- Die Integration von N-Gram-Embeddings ist besonders vorteilhaft bei hohen Sparsitätsgraden, wenn die Expertensysteme ihre optimale Leistung überschreiten.
- Ein optimales Parameterbudget für N-Gram-Embeddings liegt bei unter 50% der Gesamtparameter, um Leistungseinbußen zu vermeiden.
- Systemoptimierungen wie N-Gram-Caching und spekulatives Decoding sind entscheidend, um die theoretischen Vorteile der Embedding-Skalierung in praktische Inferenzbeschleunigungen umzusetzen.
- Das Modell LongCat-Flash-Lite, das auf diesen Erkenntnissen basiert, übertrifft vergleichbare MoE-Baselines und zeigt sich besonders stark in agentischen und Coding-Aufgaben.
Die Entwicklung großer Sprachmodelle (LLMs) ist geprägt von einem kontinuierlichen Streben nach höherer Leistungsfähigkeit und Effizienz. Ein zentraler Ansatz hierfür ist die Skalierung von Modellarchitekturen. Während Mixture-of-Experts (MoE)-Architekturen sich als Standard für die Skalierung von Sparsität etabliert haben, deuten jüngste Forschungsergebnisse darauf hin, dass die Skalierung von Embeddings eine vielversprechende, komplementäre Strategie darstellen könnte, die in bestimmten Anwendungsfällen sogar leistungsfähiger ist.
Die Herausforderungen der MoE-Skalierung
MoE-Architekturen ermöglichen es LLMs, mit einer enormen Anzahl von Parametern zu arbeiten, während die Rechenkosten durch die dynamische Aktivierung einer Teilmenge von "Experten" pro Token überschaubar bleiben. Dieser Ansatz hat die Entwicklung zu Billionen-Parameter-Modellen ermöglicht. Allerdings stoßen MoE-Architekturen zunehmend an ihre Grenzen:
- Abnehmende Erträge: Mit zunehmender Modellgröße und Sparsität nimmt der marginale Leistungszuwachs ab, was zu einer Effizienzsättigung führen kann.
- Systemengpässe: Die praktische Erweiterung von Experten wird durch systemseitige Engpässe begrenzt, insbesondere durch steigenden Kommunikationsaufwand und Speicherbandbreitendruck im verteilten Training.
Diese Herausforderungen motivieren die Suche nach alternativen, orthogonalen Dimensionen zur Skalierung von dünnbesetzten Parametern jenseits der Feed-Forward Networks (FFNs).
Embedding-Skalierung als Alternative
Im Gegensatz zu MoE bietet die Embedding-Schicht eine oft übersehene, inhärent dünnbesetzte Dimension mit einer O(1)-Lookup-Komplexität. Dies ermöglicht eine massive Parametererweiterung ohne den Routing-Overhead, der bei MoE-Modellen auftritt. Die Forschung in diesem Bereich konzentriert sich auf zwei Hauptrichtungen:
- Strukturelle Expansion: Beispiele hierfür sind Per-Layer-Embeddings (PLE), die unabhängige Embedding-Parameter pro Schicht zuweisen.
- Vokabular-Expansion: Hierbei wird das Vokabular durch N-Gramme erweitert, um die Informationsdichte pro Token zu erhöhen.
Diese Ansätze unterstreichen das Potenzial der Embedding-Schicht als fruchtbaren Boden für die Skalierung.
N-Gram-Embeddings im Detail
Eine besonders vielversprechende Methode zur Skalierung von Embedding-Parametern sind N-Gram-Embeddings. Diese erweitern die Repräsentation des Embedding-Moduls durch eine Vokabular-freie N-Gram-Embedding-Tabelle. Für jedes Token in einer Sequenz wird das Embedding durch eine N-Gram-Komponente ergänzt, die den Kontext der vorangegangenen N-1 Token erfasst. Dies geschieht typischerweise durch Hash-Funktionen, die N-Gramme auf Embedding-Vektoren abbilden.
Vergleichende Analyse: Embedding- vs. Experten-Skalierung
Eine umfassende Studie hat die Effizienz von Embedding-Skalierung im Vergleich zur Experten-Skalierung untersucht. Die Ergebnisse zeigen, dass die Skalierungsdynamik von N-Gram-Embeddings stark vom Sparsitätsgrad des Basismodells abhängt:
- Optimale Einsatzzeitpunkte: In Bereichen mit geringer Sparsität (niedriges Parameterverhältnis) übertreffen N-Gram-Embeddings die Leistungsgewinne durch eine einfache Erhöhung der Expertendichte nicht. Bei hohen Sparsitätsgraden hingegen werden die Vorteile von N-Gram-Embeddings deutlich ausgeprägter. Dies deutet darauf hin, dass N-Gram-Embeddings idealerweise dann eingesetzt werden sollten, wenn die Anzahl der Experten ihren "Sweet Spot" überschreitet.
- Parameterbudgetierung: Wenn ein Modell einen übermäßigen Anteil seines Parameterbudgets für N-Gram-Embeddings bereitstellt, kann die Leistung hinter parameteräquivalenten MoE-Baselines zurückbleiben. Studien legen nahe, dass das N-Gram-Embedding-Parameterbudget nicht mehr als 50% der Gesamtparameter betragen sollte.
- Hash-Kollisionen und Vokabulargröße: Hash-Kollisionen, bei denen mehrere N-Gramme denselben Embedding-Vektor teilen, können die Lerneffizienz beeinträchtigen. Die Wahl einer geeigneten Vokabulargröße ist entscheidend, um diese Kollisionen zu mindern. Es wurde festgestellt, dass die Kollisionszahlen signifikant ansteigen, wenn die Vokabulargröße ein ganzzahliges Vielfaches der Basisvokabulargröße erreicht. Daher sollte die Vokabulargröße von N-Gram-Embeddings deutlich von ganzzahligen Vielfachen der Basisvokabulargröße abweichen.
- Hyperparameter-Sensitivität: Die Leistung des Modells ist empfindlich gegenüber den N-Gram-Ordnungen (N) und der Anzahl der Subtabellen (K). Während sehr niedrige Werte (z.B. N=2, K=1) zu schlechterer Leistung führen, zeigt sich das Modell bei N ≥ 3 und K ≥ 2 als robust gegenüber der Hyperparameterwahl.
- Embedding-Amplifikation: Eine suboptimale Initialisierung des Embedding-Moduls kann die Wirksamkeit von N-Gram-Embeddings stark beeinträchtigen. Techniken wie Skalierungsfaktoren oder Normalisierung (LayerNorm) können die Beiträge der Embeddings zum Forward-Pass verstärken und die Leistung erheblich verbessern.
Skalierungseigenschaften über Modellbreite und -tiefe
Die Wirksamkeit der N-Gram-Embedding-Skalierung wird auch von der Breite und Tiefe des Modells beeinflusst:
- Breitere Modelle: Mit zunehmender Modellbreite (Aktivierungsgröße) verschiebt sich der Punkt, an dem N-Gram-Embeddings einen Vorteil gegenüber MoE erzielen, zu höheren Parameterverhältnissen. Dies bedeutet, dass breitere Modelle einen größeren Spielraum für den effektiven Einsatz von N-Gram-Embeddings bieten.
- Tiefere Modelle: Eine Zunahme der Modelltiefe kann den relativen Vorteil von N-Gram-Embeddings verringern, da der Signalbeitrag durch die Residualverbindungen von früheren Schichten abnimmt.
Effiziente Inferenz durch Systemoptimierungen
Die theoretischen Vorteile der Embedding-Skalierung müssen durch gezielte Systemoptimierungen in praktische Inferenzbeschleunigungen umgesetzt werden:
- Reduzierung der MoE-Aktivierungsparameter: N-Gram-Embeddings verlagern Parameter von den MoE-Schichten in den Embedding-Raum, was die Anzahl der aktivierten Parameter in MoE-Schichten reduziert. Dies ist besonders vorteilhaft in speicher-I/O-gebundenen Dekodierungsszenarien mit großen Tokenzahlen.
- Optimierter Embedding-Lookup: Um den zusätzlichen Overhead von N-Gram-Embeddings zu minimieren, wurden spezialisierte Caching-Mechanismen (N-Gram Cache) und angepasste CUDA-Kernel entwickelt. Diese optimieren den Lookup-Prozess und ermöglichen eine effiziente Synchronisation mit der komplexen Planungslogik moderner Inferenz-Frameworks.
- Rolle des Spekulativen Decodings: Spekulatives Decoding, das einen Entwurfsmodell zur schnellen Generierung von Kandidaten-Token verwendet, kann synergistisch mit N-Gram-Embeddings wirken. Durch die Nutzung der im N-Gram-Embedding inhärent enthaltenen lokalen Kontextinformationen können Entwurfsmodelle noch effizienter gestaltet werden, beispielsweise durch N-Gram-Embedding-basiertes Drafting oder frühzeitige Ablehnung von Token mit geringer Wahrscheinlichkeit.
LongCat-Flash-Lite: Ein praktisches Beispiel
Die gewonnenen Erkenntnisse wurden in die Entwicklung des Modells LongCat-Flash-Lite integriert. Dieses Modell, mit insgesamt 68,5 Milliarden Parametern und 2,9 bis 4,5 Milliarden aktivierten Parametern, basiert auf einer N-Gram-Embedding-Architektur, bei der über 30 Milliarden Parameter für Embeddings reserviert sind (entspricht etwa 46% der Gesamtparameter). Vergleichende Evaluierungen zeigen, dass LongCat-Flash-Lite:
- Konsistent niedrigere Trainingsverluste als parameteräquivalente MoE-Baselines aufweist.
- Deutliche Leistungsverbesserungen in verschiedenen Benchmarks erzielt, insbesondere in agentischen und Coding-Aufgaben.
Dies bestätigt die überlegene Wirksamkeit der strategischen Skalierung von Gesamtparametern durch N-Gram-Embeddings, insbesondere wenn die Sparsität ein ausreichend hohes Niveau erreicht hat.
Fazit für die B2B-Anwendung
Für Unternehmen, die an der Entwicklung und Implementierung von Large Language Models arbeiten, bieten diese Forschungsergebnisse wichtige Implikationen:
- Strategische Architekturentscheidungen: Die Wahl zwischen Embedding- und Experten-Skalierung ist keine Entweder-Oder-Frage, sondern erfordert eine strategische Abwägung basierend auf dem spezifischen Sparsitätsgrad und den Leistungszielen. Embedding-Skalierung kann eine überlegene Pareto-Grenze bieten, insbesondere bei hohen Sparsitätsniveaus.
- Optimierungspotenziale: Die Beachtung von Faktoren wie Parameterbudgetierung, Vokabulargröße und Initialisierung der Embeddings ist entscheidend für die Effektivität und Stabilität der Modellleistung.
- Inferenz-Effizienz: Systemseitige Optimierungen wie N-Gram-Caching und die Integration mit spekulativem Decoding sind unerlässlich, um die theoretischen Vorteile der Embedding-Skalierung in reale Geschwindigkeitsvorteile bei der Inferenz umzusetzen.
- Neue Entwicklungsmöglichkeiten: Die Integration von N-Gram-Embeddings eröffnet neue Wege zur Entwicklung leistungsfähigerer und effizienterer LLMs, die besonders in spezialisierten Anwendungsbereichen wie agentischen Systemen und Code-Generierung herausragende Leistungen erbringen können.
Die kontinuierliche Erforschung und Anwendung dieser fortgeschrittenen Skalierungsstrategien wird entscheidend sein, um die nächste Generation von KI-Modellen zu formen und deren volle Potenziale in der Wirtschaft zu entfalten.
Bibliografie
- Liu, H., Zhang, J., Wang, C., Hu, X., Lyu, L., Sun, J., Yang, X., Wang, B., Li, F., Qian, Y., Si, L., Sun, Y., Li, R., Pei, P., Xie, Y., & Cai, X. (2026). Scaling Embeddings Outperforms Scaling Experts in Language Models. arXiv preprint arXiv:2601.21204.
- AI Research Roundup. (2026). Scaling Embeddings Outperforms MoE in LLMs [Video]. YouTube.
- Liner. (2026). Scaling Embeddings Outperforms Scaling Experts in Language Models [Quick Review].
- Hugging Face. (2026). Paper page - Scaling Embeddings Outperforms Scaling Experts in Language Models.
- EmergentMind. (2026). Characterize factors governing the effectiveness and stability of embedding scaling [Open Problem].
- Khaliq, A. (2026). Scaling Embeddings Outperforms Scaling Experts in Language Models paper [LinkedIn Post].