Prävention von Ausreißern in der Quantisierung von KI-Modellen durch das OSP-Framework

Kategorien:

No items found.

Freigegeben:

October 14, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Die Quantisierung von KI-Modellen ist entscheidend für den effizienten Einsatz in ressourcenbeschränkten Umgebungen.
"Outlier" (Ausreißer) in den Aktivierungen großer Sprachmodelle (LLMs) beeinträchtigen die Quantisierungsleistung erheblich.
Das Outlier-Safe Pre-Training (OSP)-Framework bietet eine präventive Lösung, indem es die Entstehung von Ausreißern während des Vortrainings verhindert.
OSP integriert den Muon-Optimierer, Single-Scale RMSNorm und lernbare Embedding-Projektionen.
Modelle, die mit OSP trainiert wurden, zeigen eine deutlich höhere Robustheit gegenüber 4-Bit-Quantisierung bei vergleichbarer Trainingseffizienz.
Die Analyse deutet darauf hin, dass Ausreißer keine inhärente Eigenschaft von LLMs sind, sondern eine Konsequenz der gewählten Trainingsstrategien.

Optimierer unter Quantisierung: Prävention von Ausreißern für effiziente LLM-Bereitstellung

Die rapide Entwicklung großer Sprachmodelle (Large Language Models, LLMs) hat die Möglichkeiten der Künstlichen Intelligenz maßgeblich erweitert. Mit zunehmender Größe dieser Modelle steigen jedoch auch die Anforderungen an Rechenleistung und Speicherplatz. Um LLMs in ressourcenbeschränkten Umgebungen – von mobilen Geräten bis hin zu Edge-Computing-Plattformen – effizient einzusetzen, ist die Quantisierung eine Schlüsseltechnologie. Sie reduziert die Präzision der Modellgewichte und -aktivierungen, was zu einer erheblichen Verringerung des Speicherverbrauchs und der Inferenzzeit führt. Eine zentrale Herausforderung bei der Quantisierung ist jedoch das Auftreten von extremen Aktivierungs-Ausreißern, die die Leistung bei niedriger Bitbreite drastisch mindern können.

Die Herausforderung der Ausreißer in LLMs

Traditionelle Optimierungsverfahren führen während des Vortrainings von LLMs häufig zur Entstehung von Ausreißern in den Aktivierungen. Diese Ausreißer, die sich durch ungewöhnlich hohe Werte auszeichnen, stellen ein fundamentales Hindernis für eine effektive Quantisierung dar. Post-Training Quantization (PTQ)-Methoden versuchen zwar, diese Ausreißer nachträglich zu mindern, doch handelt es sich dabei um reaktive Ansätze, die das Problem nicht an der Wurzel packen. Die Forschung hat verschiedene Ursachen für Ausreißer identifiziert:

Kanalweise Skalierungsfaktoren in Normalisierungsschichten: Diese können dazu führen, dass bestimmte Kanäle überproportional an Größe gewinnen.
Das „Attention Sink“-Phänomen: Hierbei konzentrieren sich Aufmerksamkeits-Layer übermäßig auf bestimmte Token, was zu massiven Aktivierungen führen kann.
Diagonale Optimierer wie Adam und AdaFactor: Diese Optimierer wenden eine elementweise Standardisierung während der Parameteraktualisierung an, was eine präferenzielle Basis einführen und die Entstehung von Ausreißern begünstigen kann.

Die bisherigen Ansätze zur Minderung von Ausreißern auf der Vortrainingsstufe waren oft auf kleinere Modelle oder Datensätze beschränkt und vernachlässigten die Skalierbarkeit und den Rechenaufwand für den Einsatz in Produktionsumgebungen.

Das Outlier-Safe Pre-Training (OSP)-Framework

Ein neuer Forschungsansatz, das Outlier-Safe Pre-Training (OSP)-Framework, zielt darauf ab, diese Lücken zu schließen. OSP ist ein praktischer Leitfaden, der vorhandene Erkenntnisse synergetisch kombiniert, um die Entwicklung quantisierungsfreundlicher Modelle im industriellen Maßstab zu ermöglichen. Das Framework verfolgt drei Hauptziele:

Skalierbarkeit: Erfüllung der Trainingsanforderungen auf Produktionsebene.
Recheneffizienz: Vergleichbar mit Standardmethoden.
Architekturkompatibilität: Vollständige Kompatibilität mit bestehenden Inferenz-Pipelines.

Das OSP-Framework besteht aus drei Schlüsselkomponenten:

1. Integration des Muon-Optimierers

Die Grundlage des OSP-Frameworks bildet die Integration des Muon-Optimierers. Im Gegensatz zu adaptiven Optimierern wie Adam, die eine elementweise Skalierung der Gradienten vornehmen, verzichtet Muon auf diese diagonale Vorkonditionierung. Stattdessen nutzt Muon den Newton-Schulz-Algorithmus, um die Gradientenmatrix iterativ zu transformieren und eine Annäherung an die Orthogonalisierung zu erreichen. Dies eliminiert die privilegierten Basen, die bei diagonalen Vorkonditionierungen systemische Kanalverstärkung und das Auftreten von Ausreißern verursachen können.

Muon zeigt trotz seiner Klassifizierung als First-Order-Optimierer Konvergenzeigenschaften, die mit Second-Order-Optimierern vergleichbar sind. Empirische Validierungen belegen, dass Muon erfolgreich auf Milliarden-Parameter-Architekturen skaliert werden kann, die auf Billionen von Tokens trainiert werden, und dabei seine Ausreißer-Präventionseigenschaften über den gesamten Vortrainingsprozess beibehält. Dies geschieht bei einer Trainingseffizienz, die 97,9 % des Standard-Adam-Optimierers erreicht.

2. Single-Scale RMSNorm

Obwohl der Muon-Optimierer Ausreißer verhindert, die durch den Optimierer selbst entstehen, können kanalweise Skalierungsfaktoren in Normalisierungsschichten immer noch eine explizite Basisausrichtung bewirken. Um diesem Effekt entgegenzuwirken und eine umfassende Ausreißer-Prävention zu gewährleisten, schlägt OSP die Verwendung von Single-Scale RMSNorm (SSNORM) vor.

SSNORM führt einen einzelnen, lernbaren Skalierungsparameter (γ) ein, der die Aktivierungsmagnitude über alle Dimensionen hinweg uniform steuert. Im Gegensatz zu herkömmlichen RMSNorm-Varianten, die kanalweise Multiplikationen verwenden, verhindert SSNORM die Entstehung privilegierter Koordinaten, indem alle Dimensionen einen einzigen Skalierungsfaktor teilen. Dies ermöglicht eine adaptive Anpassung der Aktivierungsskalen und erhält gleichzeitig eine stabile Optimierungsdynamik.

3. Entkoppelte Embedding-Optimierung

Die dritte Komponente des OSP-Frameworks adressiert die rechnerischen Herausforderungen, die durch Embedding-Layer in modernen LLMs entstehen. Bei wachsenden Vokabulargrößen machen Embedding-Matrizen einen erheblichen Anteil der Modellparameter aus. Ihre hohe Dimensionalität stellt für nicht-diagonale Optimierer einen Engpass dar. OSP verwendet daher weiterhin die Adam-Optimierung ausschließlich für die Embedding-Layer, da dies zu besseren Konvergenzeigenschaften führt.

Um potenzielle Ausreißer, die durch diese entkoppelte Optimierung in den Embeddings wieder eingeführt werden könnten, zu kontrollieren, integriert OSP eine lernbare Full-Rank-Embedding-Projektion (EMBPROJ). Diese Projektionsmatrizen, die nach dem Embedding-Layer und vor dem Unembedding-Layer positioniert sind, verteilen aufkommende Ausreißer über verschiedene Dimensionen neu. Dies verhindert deren Konzentration und Propagation durch andere Schichten. Die Matrizen können nach dem Training in die angrenzenden Embeddings absorbiert werden, wodurch die rechnerische Invarianz erhalten bleibt.

Experimentelle Validierung und Ergebnisse

Umfassende Experimente mit einer 1,4 Milliarden Parameter starken LLaMA-Architektur, die über eine Billion Tokens vortrainiert wurde, validieren die Wirksamkeit des OSP-Frameworks. Die Quantifizierung von Ausreißern erfolgte mittels der Exzess-Kurtosis, einem Metrik, die die Schwanzlastigkeit von Verteilungen mit Ausreißern erfasst.

Die Ergebnisse zeigen:

Reduzierung der Ausreißer: Modelle, die mit OSP trainiert wurden, weisen eine nahezu Null-Exzess-Kurtosis in den Aktivierungsverteilungen auf, was auf eine fundamentale Eliminierung von Ausreißern hindeutet.
Quantisierungsrobustheit: Das OSP-Framework erreicht die höchste Quantisierungsresilienz. Unter aggressiver 4-Bit-Quantisierung übertrifft das OSP-Modell vergleichbare Open-Source-Alternativen erheblich. Während andere Modelle bei niedriger Bitbreite massive Genauigkeitsverluste erleiden, behält OSP eine starke Leistungsfähigkeit bei.
Trainingseffizienz: OSP reduziert den Speicherverbrauch um 33 % im Vergleich zu Standardansätzen und weist nur einen geringen Anstieg der Trainingszeit von 2 % auf.
Komplementäre Vorteile: OSP-Modelle erzielen auch in Kombination mit bestehenden PTQ-Methoden komplementäre Leistungsverbesserungen, was darauf hindeutet, dass OSP eine bessere Grundlage für die nachfolgende PTQ-Kalibrierung bietet.

Eine qualitative Analyse zeigte, dass das „Attention Sink“-Phänomen auch in Abwesenheit von Ausreißern bestehen bleibt. Dies deutet darauf hin, dass Aufmerksamkeits-Sinks nicht die inhärente Ursache für Ausreißer sind, sondern dass Modelle, die anfällig für Ausreißer sind, die Strategie der negativen Unendlichkeit als rechnerische Lösung für "No-Op"-Operationen in Trainingsdynamiken nutzen, die konzentrierte Kanalaktivierungen begünstigen.

Fazit und Ausblick

Das Outlier-Safe Pre-Training (OSP)-Framework stellt einen bedeutenden Fortschritt in der Quantisierung von LLMs dar. Durch die präventive Verhinderung der Entstehung von Aktivierungs-Ausreißern während des Trainings – durch den Muon-Optimierer, Single-Scale RMSNorm und lernbare Embedding-Projektionen – ermöglicht OSP eine robuste und effiziente Bereitstellung von LLMs mit niedriger Bitbreite, ohne aufwändige architektonische Änderungen oder kostspieliges Quantization-Aware Training.

Die Ergebnisse demonstrieren, dass Ausreißer keine zwangsläufige Eigenschaft von LLMs sind, sondern eine Konsequenz der gewählten Trainingsstrategien. Die Veröffentlichung des ersten produktionsreifen, ausreißerfreien LLM eröffnet neue Möglichkeiten für die weitere Erforschung und Entwicklung effizienter KI-Modelle.

Zukünftige Arbeiten könnten die Auswirkungen von OSP auf eine breitere Palette von Modellgrößen untersuchen, insbesondere auf die für den mobilen Einsatz relevanten 3B- und 7B-Parameter-Modelle. Des Weiteren ist eine umfassende Untersuchung im Vergleich zu anderen Second-Order-Optimierern wie Shampoo oder SOAP von Interesse, um die optimale Wahl des Optimierers unter Quantisierungsbedingungen weiter zu präzisieren.

Bibliography

- Ashkboos, S., Croci, M. L., Gennari do Nascimento, M., Hoefler, T., & Hensman, J. (2024a). SliceGPT: Compress large language models by deleting rows and columns. In The Twelfth International Conference on Learning Representations. - Ashkboos, S., Mohtashami, A., Croci, M., Li, B., Cameron, P., Jaggi, M., ... & Hensman, J. (2024b). Quarot: Outlier-free 4-bit inference in rotated llms. In Advances in Neural Information Processing Systems, 37, 100213-100240. - Bondarenko, Y., Nagel, M., & Blankevoort, T. (2023). Quantizable transformers: Removing outliers by helping attention heads do nothing. In Advances in Neural Information Processing Systems, 36, 75067-75096. - He, B., Noci, L., Paliotta, D., Schlag, I., & Hofmann, T. (2024). Understanding and minimising outlier features in transformer training. In Advances in Neural Information Processing Systems, 37, 83786-83846. - Jordan, K., Jin, Y., Boza, V., Jiacheng, Y., Cecista, F., Newhouse, L., & Bernstein, J. (2024). Muon: An optimizer for hidden layers in neural networks. - Kovaleva, O., Kulshreshtha, S., Rogers, A., & Rumshisky, A. (2021). BERT busters: Outlier dimensions that disrupt transformers. In Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021, 3392-3405. - Liu, Z., Zhao, C., Fedorov, I., Soran, B., Choudhary, D., Krishnamoorthi, R., ... & Blankevoort, T. (2024c). Spinquant–llm quantization with learned rotations. arXiv preprint arXiv:2405.16406. - Park, J., Lee, T., Yoon, C., Hwang, H., & Kang, J. (2025). Outlier-Safe Pre-Training for Robust 4-Bit Quantization of Large Language Models. Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 12582–12600. - Touvron, H., Lavril, T., Izacard, G., Martinet, X., Lachaux, M.-A., Lacroix, T., ... & Lample, G. (2023). Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971. - Tseng, A., Chee, J., Sun, Q., Kuleshov, V., & De Sa, C. (2024). QuIP: Even better LLM quantization with hadamard incoherence and lattice codebooks. In Proceedings of the 41st International Conference on Machine Learning, 235, 48630-48656. - Vlassis, G., Ashkboos, S., Volkova, A., Hoefler, T., & Alistarh, D. (2025). Beyond Outliers: A Study of Optimizers Under Quantization. arXiv preprint arXiv:2509.23500. - Wei, X., Zhang, Y., Zhang, X., Gong, R., Zhang, S., Qi, Z., ... & Liu, X. (2022). Outlier suppression: Pushing the limit of low-bit transformer language models. In Advances in Neural Information Processing Systems, 35, 17402-17414.