Einheitliches spektrales Rahmenwerk für die Skalierung generativer Basismodelle

Kategorien:

No items found.

Freigegeben:

March 3, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Die Skalierung von generativen Basismodellen in Breite und Tiefe führt zu Herausforderungen bei der Merkmalsstabilität und der Übertragbarkeit von Hyperparametern.
Die Maximal Update Parameterisierung (µP) bietet eine Lösung für die Breitenskalierung, war jedoch für die gemeinsame Breiten- und Tiefenskalierung fragmentiert und architekturspezifisch.
Ein neues spektrales Rahmenwerk für µP unter gemeinsamer Breiten- und Tiefenskalierung wird vorgestellt, das auf elementarer linearer Algebra basiert.
Dieses Rahmenwerk führt eine spektrale µP-Bedingung ein, die das Skalierungsverhalten von Gewichts- und Update-Normen präzise charakterisiert.
Es ermöglicht die Vereinheitlichung bestehender µP-Formulierungen und deren Erweiterung auf eine breitere Palette von Optimierern wie SGD, AdamW und Muon-Kimi.
Empirische Tests an GPT-2-ähnlichen Sprachmodellen bestätigen die Stabilität des Feature-Learnings und die Robustheit der Hyperparameter-Übertragung unter Breiten- und Tiefenskalierung.

Die fortschreitende Entwicklung im Bereich der künstlichen Intelligenz, insbesondere bei generativen Basismodellen, ist eng mit der Fähigkeit verbunden, diese Modelle effektiv zu skalieren. Dabei geht es nicht nur um die Erhöhung der Modellbreite, sondern zunehmend auch um die Modelltiefe. Diese duale Skalierung bringt jedoch erhebliche Herausforderungen mit sich, insbesondere im Hinblick auf die Stabilität des Feature-Learnings und die zuverlässige Übertragung von Hyperparametern über verschiedene Modellgrößen hinweg. Die Maximal Update Parameterisierung (µP) hat sich als vielversprechender Ansatz zur Bewältigung dieser Probleme erwiesen, insbesondere bei der Skalierung der Breite. Die bisherigen Erweiterungen auf die gemeinsame Breiten- und Tiefenskalierung waren jedoch oft fragmentiert, architekturspezifisch und basierten auf komplexen theoretischen Ansätzen.

Einheitliches Spektrales Rahmenwerk für µP

Eine aktuelle Forschung nimmt sich dieser Herausforderungen an und stellt ein vereinfachtes und einheitliches spektrales Rahmenwerk für µP unter gemeinsamer Breiten- und Tiefenskalierung vor. Dieses Rahmenwerk konzentriert sich auf Residualnetzwerke mit variierenden Blocktiefen und führt eine spektrale µP-Bedingung ein. Diese Bedingung charakterisiert präzise, wie die Normen der Gewichte und deren schrittweise Updates mit der Breite und Tiefe des Modells skaliert werden sollten. Ein zentrales Ergebnis dieser Arbeit ist die Vereinheitlichung bisheriger, fragmentierter µP-Formulierungen als Spezialfälle dieses übergeordneten spektralen Ansatzes.

Die Spektrale µP-Bedingung im Detail

Die vorgeschlagene spektrale µP-Bedingung spezifiziert, wie die RMS-Operatornormen von Gewichten und deren schrittweise Updates mit der Modellgröße skalieren müssen. Für Residualnetzwerke unter gemeinsamer Breiten- und Tiefenskalierung beinhaltet dies spezifische Anforderungen an die Initialisierung und die Updates der Gewichte:

Initialisierungsbedingung

Eingangs- und Ausgangsgewichte: Die Produkte aus den Blockmultiplikatoren und den RMS-Operatornormen der Gewichte (z.B. α0∥W0∥R) sollten von der Ordnung Θ(1) sein.
Versteckte Gewichte: Für tieferliegende Schichten sollte das Produkt aus dem Blockmultiplikator und den RMS-Operatornormen der Gewichte in einem Residualblock (z.B. αl∥W(2)l∥R∥W(1)l∥R) mit Θ(1/L) skalieren, wobei L die Tiefe des Netzwerks ist. Dies verhindert eine Merkmalsexplosion, die durch die Akkumulation entlang der Residualverbindungen verursacht werden könnte.

Update-Bedingung

Eingangs- und Ausgangsgewichte: Ähnlich der Initialisierungsbedingung sollten die Produkte aus den Blockmultiplikatoren und den RMS-Operatornormen der Gewichtsupdates (z.B. α0∥∆W0∥R) von der Ordnung Θ(1) sein.
Versteckte Gewichte (erste Ordnung): Die Produkte aus dem Blockmultiplikator, den RMS-Operatornormen eines Gewichtsupdates und den RMS-Operatornormen des anderen Gewichts im Block (z.B. αl∥∆W(2)l∥R∥W(1)l∥R) sollten mit Θ(1/L) skalieren.
Versteckte Gewichte (zweite Ordnung): Die Produkte aus dem Blockmultiplikator und den RMS-Operatornormen beider Gewichtsupdates im Block (z.B. αl∥∆W(2)l∥R∥∆W(1)l∥R) sollten ebenfalls mit Θ(1/L) skalieren.

Diese Bedingungen verdeutlichen, dass im Gegensatz zur reinen Breitenskalierung die RMS-Operatornorm versteckter Gewichte und ihrer Updates mit der Tiefe als Θ(L−1) schrumpfen muss, um die Merkmalsstabilität zu gewährleisten. Die Analyse basiert auf elementarer linearer Algebra und Wahrscheinlichkeitstheorie, was sie zugänglicher macht als frühere Ansätze, die auf komplexen Techniken wie Tensorprogrammen oder dynamischer Mean-Field-Theorie beruhten.

Verallgemeinerung und Implementierung

Aufbauend auf dieser spektralen Bedingung wurde ein allgemeines Rezept zur Implementierung von µP über eine breite Klasse von Optimierern hinweg entwickelt. Dies geschieht durch die Abbildung der spektralen Einschränkungen auf konkrete Hyperparameter-Parametrisierungen. Dieser Ansatz rekonstituiert nicht nur bestehende µP-Formulierungen für Optimierer wie SGD und AdamW, sondern erweitert sie auch auf eine breitere Palette moderner Optimierer, darunter Muon-Kimi, Spectral Sphere Optimizer (SSO), Sophia und Lion.

Die praktische Umsetzung der spektralen Bedingung erfordert die Bestimmung geeigneter Parametrisierungen für Blockmultiplikatoren (αl), Initialisierungsvarianzen (σ²l) und Lernraten (ηl). Für die Initialisierung wird eine Ausrichtung an der Standard-Breiten-Skalierungs-µP-Methode gewählt, bei der die Varianz der Gewichte so festgelegt wird, dass die RMS-Operatornormen der Gewichtsmatrizen bestimmte Skalierungsgesetze erfüllen. Beispielsweise wird für die versteckten Schichten der Blockmultiplikator αl auf Θ(1/L) gesetzt, um die Initialisierungsbedingungen zu erfüllen.

Anpassung für verschiedene Optimierer

Die Update-Bedingung hängt stark vom gewählten Optimierer ab, da unterschiedliche Optimierer unterschiedliche Skalen der Gewichtsupdates (∥∆Wl∥R) aufweisen. Am Beispiel von Muon-Kimi wird gezeigt, wie die Lernrate ηl parametrisiert werden muss, um die Update-Bedingungen zu erfüllen. Entsprechende Parametrisierungen werden auch für andere Optimierer abgeleitet, wobei die Auswirkungen von Gewichtsdämpfung und Bias-Lernraten berücksichtigt werden.

Empirische Validierung und praktische Relevanz

Die praktische Wirksamkeit des vorgeschlagenen spektralen Rahmenwerks wurde durch Experimente mit GPT-2-ähnlichen Sprachmodellen demonstriert. Diese Experimente zeigen, dass die abgeleitete µP-Formulierung ein skalierungsinvariantes Feature-Learning ermöglicht und eine robuste Übertragung von Hyperparametern unter gemeinsamer Breiten- und Tiefenskalierung gewährleistet. Dies bedeutet, dass Hyperparameter, die an kleineren Modellen optimiert wurden, direkt auf wesentlich größere Modelle übertragen werden können, was die Kosten für die Hyperparameter-Abstimmung erheblich reduziert.

Ein wichtiger Aspekt der Validierung ist die Überprüfung der Stabilität des Feature-Learnings. Standard-Parametrisierungen (SP) führen typischerweise zu einer schnellen Explosion der Merkmalswerte bei zunehmender Breite und Tiefe. Im Gegensatz dazu hält die µP-Methode die Merkmalsnormen stabil und skalierungsinvariant, was konsistente Trainingsdynamiken sicherstellt. Darüber hinaus bleiben die optimalen Lernraten unter µP nahezu invariant über verschiedene Modellgrößen hinweg, während sie bei SP erhebliche Verschiebungen aufweisen und eine erneute Abstimmung erfordern.

Die Robustheit des Ansatzes wird auch unter anspruchsvollen Bedingungen, wie dem Training ohne Layer-Normalisierung, bestätigt. Hier zeigt sich, dass Standard-Parametrisierungen erheblich an Stabilität verlieren und die Hyperparameter-Übertragung zusammenbricht, während µP auch bei großen Tiefen stabil bleibt und eine robuste Hyperparameter-Übertragung ermöglicht.

Ausblick

Das vorgestellte einheitliche spektrale Rahmenwerk für µP bietet eine prinzipiengeleitete Lösung für die effiziente Skalierung generativer Basismodelle. Es vereinfacht die theoretische Analyse und praktische Implementierung der µP-Prinzipien, was zu stabilen Feature-Learning-Prozessen und einer effizienteren Hyperparameter-Übertragung führt. Diese Fortschritte sind von Bedeutung für die Entwicklung und den Einsatz immer größerer und komplexerer KI-Modelle in vielfältigen Anwendungen.

***

Bibliography

- Chenyu Zheng, Rongzhen Wang, Xinyu Zhang, Chongxuan Li. Spectral Condition for μP under Width–Depth Scaling. arXiv:2603.00541, 2026. - AI Research Roundup. Unified μP for Scaling Width and Depth. YouTube, 2026. - Hugging Face. Daily Papers. Hugging Face, 2026. - Mike Erlihson, Mathy AI. A Spectral Condition for Feature Learning. Mathy AI Substack, 2025. - Mike Erlihson, Mathy AI. A Spectral Condition for Feature Learning. arXiv:2310.17813, 2024. - Akshita Gupta, Marieme Ngom, Sam Foreman, Venkatram Vishwanath. Extending μP: Spectral Conditions for Feature Learning Across Optimizers. OPT 2025: Optimization for Machine Learning, 2025. - OpenReview. Extending μP: Spectral Conditions for Feature Learning Across Optimizers. OpenReview, 2025. - Charlie Blake, Constantin Eichenberg, Josef Dean, Lukas Balles, Luke Y. Prince, Björn Deiseroth, Andres Felipe Cruz-Salinas, Carlo Luschi, Samuel Weinbach, Douglas Orr. U-μP: THE UNIT-SCALED MAXIMAL UPDATE PARAMETRIZATION. ICLR Proceedings, 2025. - John Zhao. Towards a Principled Muon under μP: Ensuring Spectral Conditions throughout Training. arXiv:2601.01306, 2026.