Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die rapide Entwicklung großer Sprachmodelle (Large Language Models, LLMs) hat die Möglichkeiten der Künstlichen Intelligenz maßgeblich erweitert. Mit zunehmender Größe dieser Modelle steigen jedoch auch die Anforderungen an Rechenleistung und Speicherplatz. Um LLMs in ressourcenbeschränkten Umgebungen – von mobilen Geräten bis hin zu Edge-Computing-Plattformen – effizient einzusetzen, ist die Quantisierung eine Schlüsseltechnologie. Sie reduziert die Präzision der Modellgewichte und -aktivierungen, was zu einer erheblichen Verringerung des Speicherverbrauchs und der Inferenzzeit führt. Eine zentrale Herausforderung bei der Quantisierung ist jedoch das Auftreten von extremen Aktivierungs-Ausreißern, die die Leistung bei niedriger Bitbreite drastisch mindern können.
Traditionelle Optimierungsverfahren führen während des Vortrainings von LLMs häufig zur Entstehung von Ausreißern in den Aktivierungen. Diese Ausreißer, die sich durch ungewöhnlich hohe Werte auszeichnen, stellen ein fundamentales Hindernis für eine effektive Quantisierung dar. Post-Training Quantization (PTQ)-Methoden versuchen zwar, diese Ausreißer nachträglich zu mindern, doch handelt es sich dabei um reaktive Ansätze, die das Problem nicht an der Wurzel packen. Die Forschung hat verschiedene Ursachen für Ausreißer identifiziert:
Kanalweise Skalierungsfaktoren in Normalisierungsschichten: Diese können dazu führen, dass bestimmte Kanäle überproportional an Größe gewinnen.
Das „Attention Sink“-Phänomen: Hierbei konzentrieren sich Aufmerksamkeits-Layer übermäßig auf bestimmte Token, was zu massiven Aktivierungen führen kann.
Diagonale Optimierer wie Adam und AdaFactor: Diese Optimierer wenden eine elementweise Standardisierung während der Parameteraktualisierung an, was eine präferenzielle Basis einführen und die Entstehung von Ausreißern begünstigen kann.
Die bisherigen Ansätze zur Minderung von Ausreißern auf der Vortrainingsstufe waren oft auf kleinere Modelle oder Datensätze beschränkt und vernachlässigten die Skalierbarkeit und den Rechenaufwand für den Einsatz in Produktionsumgebungen.
Ein neuer Forschungsansatz, das Outlier-Safe Pre-Training (OSP)-Framework, zielt darauf ab, diese Lücken zu schließen. OSP ist ein praktischer Leitfaden, der vorhandene Erkenntnisse synergetisch kombiniert, um die Entwicklung quantisierungsfreundlicher Modelle im industriellen Maßstab zu ermöglichen. Das Framework verfolgt drei Hauptziele:
Skalierbarkeit: Erfüllung der Trainingsanforderungen auf Produktionsebene.
Recheneffizienz: Vergleichbar mit Standardmethoden.
Architekturkompatibilität: Vollständige Kompatibilität mit bestehenden Inferenz-Pipelines.
Das OSP-Framework besteht aus drei Schlüsselkomponenten:
Die Grundlage des OSP-Frameworks bildet die Integration des Muon-Optimierers. Im Gegensatz zu adaptiven Optimierern wie Adam, die eine elementweise Skalierung der Gradienten vornehmen, verzichtet Muon auf diese diagonale Vorkonditionierung. Stattdessen nutzt Muon den Newton-Schulz-Algorithmus, um die Gradientenmatrix iterativ zu transformieren und eine Annäherung an die Orthogonalisierung zu erreichen. Dies eliminiert die privilegierten Basen, die bei diagonalen Vorkonditionierungen systemische Kanalverstärkung und das Auftreten von Ausreißern verursachen können.
Muon zeigt trotz seiner Klassifizierung als First-Order-Optimierer Konvergenzeigenschaften, die mit Second-Order-Optimierern vergleichbar sind. Empirische Validierungen belegen, dass Muon erfolgreich auf Milliarden-Parameter-Architekturen skaliert werden kann, die auf Billionen von Tokens trainiert werden, und dabei seine Ausreißer-Präventionseigenschaften über den gesamten Vortrainingsprozess beibehält. Dies geschieht bei einer Trainingseffizienz, die 97,9 % des Standard-Adam-Optimierers erreicht.
Obwohl der Muon-Optimierer Ausreißer verhindert, die durch den Optimierer selbst entstehen, können kanalweise Skalierungsfaktoren in Normalisierungsschichten immer noch eine explizite Basisausrichtung bewirken. Um diesem Effekt entgegenzuwirken und eine umfassende Ausreißer-Prävention zu gewährleisten, schlägt OSP die Verwendung von Single-Scale RMSNorm (SSNORM) vor.
SSNORM führt einen einzelnen, lernbaren Skalierungsparameter (γ) ein, der die Aktivierungsmagnitude über alle Dimensionen hinweg uniform steuert. Im Gegensatz zu herkömmlichen RMSNorm-Varianten, die kanalweise Multiplikationen verwenden, verhindert SSNORM die Entstehung privilegierter Koordinaten, indem alle Dimensionen einen einzigen Skalierungsfaktor teilen. Dies ermöglicht eine adaptive Anpassung der Aktivierungsskalen und erhält gleichzeitig eine stabile Optimierungsdynamik.
Die dritte Komponente des OSP-Frameworks adressiert die rechnerischen Herausforderungen, die durch Embedding-Layer in modernen LLMs entstehen. Bei wachsenden Vokabulargrößen machen Embedding-Matrizen einen erheblichen Anteil der Modellparameter aus. Ihre hohe Dimensionalität stellt für nicht-diagonale Optimierer einen Engpass dar. OSP verwendet daher weiterhin die Adam-Optimierung ausschließlich für die Embedding-Layer, da dies zu besseren Konvergenzeigenschaften führt.
Um potenzielle Ausreißer, die durch diese entkoppelte Optimierung in den Embeddings wieder eingeführt werden könnten, zu kontrollieren, integriert OSP eine lernbare Full-Rank-Embedding-Projektion (EMBPROJ). Diese Projektionsmatrizen, die nach dem Embedding-Layer und vor dem Unembedding-Layer positioniert sind, verteilen aufkommende Ausreißer über verschiedene Dimensionen neu. Dies verhindert deren Konzentration und Propagation durch andere Schichten. Die Matrizen können nach dem Training in die angrenzenden Embeddings absorbiert werden, wodurch die rechnerische Invarianz erhalten bleibt.
Umfassende Experimente mit einer 1,4 Milliarden Parameter starken LLaMA-Architektur, die über eine Billion Tokens vortrainiert wurde, validieren die Wirksamkeit des OSP-Frameworks. Die Quantifizierung von Ausreißern erfolgte mittels der Exzess-Kurtosis, einem Metrik, die die Schwanzlastigkeit von Verteilungen mit Ausreißern erfasst.
Die Ergebnisse zeigen:
Reduzierung der Ausreißer: Modelle, die mit OSP trainiert wurden, weisen eine nahezu Null-Exzess-Kurtosis in den Aktivierungsverteilungen auf, was auf eine fundamentale Eliminierung von Ausreißern hindeutet.
Quantisierungsrobustheit: Das OSP-Framework erreicht die höchste Quantisierungsresilienz. Unter aggressiver 4-Bit-Quantisierung übertrifft das OSP-Modell vergleichbare Open-Source-Alternativen erheblich. Während andere Modelle bei niedriger Bitbreite massive Genauigkeitsverluste erleiden, behält OSP eine starke Leistungsfähigkeit bei.
Trainingseffizienz: OSP reduziert den Speicherverbrauch um 33 % im Vergleich zu Standardansätzen und weist nur einen geringen Anstieg der Trainingszeit von 2 % auf.
Komplementäre Vorteile: OSP-Modelle erzielen auch in Kombination mit bestehenden PTQ-Methoden komplementäre Leistungsverbesserungen, was darauf hindeutet, dass OSP eine bessere Grundlage für die nachfolgende PTQ-Kalibrierung bietet.
Eine qualitative Analyse zeigte, dass das „Attention Sink“-Phänomen auch in Abwesenheit von Ausreißern bestehen bleibt. Dies deutet darauf hin, dass Aufmerksamkeits-Sinks nicht die inhärente Ursache für Ausreißer sind, sondern dass Modelle, die anfällig für Ausreißer sind, die Strategie der negativen Unendlichkeit als rechnerische Lösung für "No-Op"-Operationen in Trainingsdynamiken nutzen, die konzentrierte Kanalaktivierungen begünstigen.
Das Outlier-Safe Pre-Training (OSP)-Framework stellt einen bedeutenden Fortschritt in der Quantisierung von LLMs dar. Durch die präventive Verhinderung der Entstehung von Aktivierungs-Ausreißern während des Trainings – durch den Muon-Optimierer, Single-Scale RMSNorm und lernbare Embedding-Projektionen – ermöglicht OSP eine robuste und effiziente Bereitstellung von LLMs mit niedriger Bitbreite, ohne aufwändige architektonische Änderungen oder kostspieliges Quantization-Aware Training.
Die Ergebnisse demonstrieren, dass Ausreißer keine zwangsläufige Eigenschaft von LLMs sind, sondern eine Konsequenz der gewählten Trainingsstrategien. Die Veröffentlichung des ersten produktionsreifen, ausreißerfreien LLM eröffnet neue Möglichkeiten für die weitere Erforschung und Entwicklung effizienter KI-Modelle.
Zukünftige Arbeiten könnten die Auswirkungen von OSP auf eine breitere Palette von Modellgrößen untersuchen, insbesondere auf die für den mobilen Einsatz relevanten 3B- und 7B-Parameter-Modelle. Des Weiteren ist eine umfassende Untersuchung im Vergleich zu anderen Second-Order-Optimierern wie Shampoo oder SOAP von Interesse, um die optimale Wahl des Optimierers unter Quantisierungsbedingungen weiter zu präzisieren.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen