Effizientes Training von Reasoning-LLMs mit Nemotron Elastic

Kategorien:

No items found.

Freigegeben:

November 22, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Nemotron Elastic ermöglicht effizientes Training: Ein neues Framework reduziert die Trainingskosten für Familien von Reasoning LLMs drastisch, indem es mehrere Submodelle in einem einzigen Elternmodell integriert.
360-fache Kostenersparnis gegenüber Training von Grund auf: Die Methode benötigt nur 110 Milliarden Trainings-Tokens, um 6B- und 9B-Modelle aus einem 12B-Elternmodell abzuleiten, im Vergleich zu Billionen von Tokens bei herkömmlichen Ansätzen.
7-fache Effizienzsteigerung gegenüber optimierten Kompressionstechniken: Auch im Vergleich zu modernen Kompressionsmethoden wie Minitron-SSM bietet Nemotron Elastic eine erhebliche Verbesserung.
Zero-Shot-Extraktion von Submodellen: Kleinere Modelle können ohne zusätzliches Training oder Feinabstimmung direkt aus dem Elternmodell extrahiert werden.
Konstanter Speicherbedarf im Einsatz: Unabhängig von der Anzahl der Modelle in einer Familie bleibt der Speicherbedarf für die Bereitstellung konstant, da Gewichte geteilt werden.
Zweistufiges Trainingscurriculum: Ein spezieller Ansatz mit verlängertem Kontexttraining (49.000 Tokens) ist entscheidend, um die Schlussfolgerungsfähigkeiten der komprimierten Modelle zu erhalten.
Leistungsstarker Router für Architekturentscheidungen: Ein end-to-end trainierter Router wählt dynamisch die optimalen Architekturkonfigurationen basierend auf Ressourcenbeschränkungen und Aufgabenkomplexität.

Revolution in der LLM-Entwicklung: Effiziente Reasoning-Modelle durch Nemotron Elastic

Die Entwicklung und Bereitstellung von Large Language Models (LLMs) mit unterschiedlichen Skalierungen und Einsatzszenarien erfordert traditionell immense Rechenressourcen. Jede Modellgröße musste separat trainiert werden, was zu explodierenden Kosten und einem erheblichen Zeitaufwand führte. Eine kürzlich vorgestellte Innovation, das Nemotron Elastic Framework, verspricht hier eine grundlegende Veränderung. Dieses Framework ermöglicht die effiziente Entwicklung von Reasoning-LLMs, einschließlich hybrider Mamba-Attention-Architekturen, die mehrere verschachtelte Submodelle innerhalb eines einzigen Elternmodells integrieren.

Die Herausforderung der traditionellen LLM-Skalierung

Große Sprachmodelle haben sich als äußerst leistungsfähig erwiesen, doch die Skalierung bringt erhebliche Kosten mit sich. Das Training einer Familie von LLMs, die verschiedene Modellgrößen für unterschiedliche Einsatzszenarien umfassen, erforderte bisher separate Trainingsläufe für jede Variante. Beispielsweise wurden die Modelle der Llama-3.1-Familie mit 8B, 70B und 405B Parametern jeweils unabhängig voneinander auf Billionen von Tokens trainiert. Dieser Ansatz vervielfacht nicht nur die Infrastrukturkosten, sondern begrenzt auch die Möglichkeiten, Modelle effizient an spezifische Ressourcenbeschränkungen anzupassen.

Aktuelle Fortschritte in der Modellkompression, wie strukturiertes Pruning und Knowledge Distillation, haben die Kosten reduziert. Diese Methoden trainieren zwar nur das größte Modell von Grund auf und leiten kleinere Varianten durch Pruning und erneutes Training ab. Dennoch sind hierfür Hunderte von Milliarden Trainings-Tokens pro komprimiertem Modell erforderlich, was die Gesamtkosten weiterhin hoch hält. Eine vielversprechende Alternative sind sogenannte "elastische" oder Matrjoschka-ähnliche, verschachtelte Netzwerke, bei denen Submodelle ohne zusätzliches Training oder Feinabstimmung aus einem Elternmodell extrahiert werden können und Gewichte mit diesem teilen.

Zwei weitere Trends beeinflussen die Notwendigkeit effizienterer Methoden: zum einen der Aufstieg hybrider Modelle, die Aufmerksamkeitsmechanismen mit State Space Models (SSMs) wie Mamba kombinieren. Diese Architekturen bieten eine überlegene Effizienz durch reduzierte KV-Cache-Anforderungen und lineare Zeitverarbeitung bei gleichbleibender Genauigkeit. Zum anderen der Übergang von Basis- zu Reasoning-Modellen, die komplexe Probleme durch erweiterte Denkketten lösen und dafür erhebliche Token-Budgets für Zwischenschritte benötigen. Bestehende Kompressionstechniken adressieren diese doppelten Anforderungen bisher nicht ausreichend.

Nemotron Elastic: Ein Paradigmenwechsel

Nemotron Elastic stellt ein Framework vor, das hybride LLMs trainiert, die über einen end-to-end trainierten Router gleichzeitig mehrere Bereitstellungskonfigurationen unterstützen. Der Ansatz generiert mehrere verschachtelte Subnetzwerke mit unterschiedlichen Parameterbudgets aus einem einzigen elastischen Trainingslauf. Jedes dieser Submodelle ist durch ein zweistufiges Curriculum, das die Langkontextfähigkeit priorisiert, auf Schlussfolgerungen optimiert.

Die Anwendung von Nemotron Elastic auf das Nemotron Nano V2 12B Modell führte zur gleichzeitigen Produktion eines 9B- und eines 6B-Modells unter Verwendung von lediglich 110 Milliarden Trainings-Tokens. Dies bedeutet eine Kostensenkung um über das 360-fache im Vergleich zum Training von Modellfamilien von Grund auf und eine etwa 7-fache Reduktion im Vergleich zu modernen Kompressionstechniken. Jedes der verschachtelten Modelle erreicht dabei eine gleichwertige oder bessere Genauigkeit als der aktuelle Stand der Technik. Im Gegensatz zu anderen Kompressionsmethoden ermöglicht der verschachtelte Ansatz ein "Viele-in-einem"-Reasoning-Modell, das einen konstanten Speicherbedarf für die Bereitstellung aufweist, unabhängig von der Anzahl der Modelle in der Familie.

Die wesentlichen Beiträge von Nemotron Elastic umfassen:

Erstes elastisches Reasoning-Modell: Eine speziell für Reasoning-LLMs entwickelte elastische Architektur mit zweistufigem Training und optimiertem Langkontext (49.000 Tokens).
Tiefen-Elastifizierung: Reduzierung der Tiefe durch iteratives Entfernen von Schichten, basierend auf einer normalisierten MSE zur Vorhersage des Vollmodells.
Wissensdestillation: Das nicht-elastifizierte Modell dient als fester Lehrer, der die Kompression mit lehrergerichteten Signalen anstelle von reiner CE-Loss steuert.
Erhebliche Reduzierung der Trainingskosten: Nur 110 Milliarden Tokens für die Ableitung von 6B- und 9B-Varianten aus einem 12B-Elternmodell.
Speichereffizientes Multi-Budget-Training: Der Speicheroverhead entspricht nur dem größten Modell plus Router-Parameter (weniger als 2% zusätzlicher Speicher).
Heterogene Elastifizierung: Der Router-basierte Suchmechanismus ermöglicht schichtweise heterogene Konfigurationen (z.B. variierende FFN-Dimensionen über Schichten hinweg).

Methodik: Von der Wichtigkeitsschätzung zur dynamischen Maskierung

Das Nemotron Elastic Framework basiert auf mehreren Kernkomponenten:

Wichtigkeitsschätzung und Modellvorbereitung

Die Wichtigkeit von Komponenten leitet die Architektursuche, indem sie jene Elemente identifiziert, die am meisten zur Modellleistung beitragen. Dies geschieht mithilfe eines aktivierungsbasierten Ansatzes. Für jede Breiten-Dimension (Einbettungskanäle, Mamba-Heads, Aufmerksamkeits-Heads, FFN-Neuronen) werden Wichtigkeitswerte aus der Vorwärtspropagation berechnet. Für Mamba-Komponenten werden Scores aus den Projektionsmatrix-Ausgaben extrahiert, wobei gruppenbewusste Einschränkungen berücksichtigt werden, um die SSM-Struktur zu erhalten. Die Komponenten werden dann absteigend nach Wichtigkeit sortiert, um eine Rangfolge zu erstellen, die die Auswahl des Routers bei verschiedenen Kompressionsbudgets leitet.

Die Schichtwichtigkeit wird iterativ durch den normalisierten mittleren quadratischen Fehler (MSE) zwischen den Vorhersagen des vollständigen Modells und den Vorhersagen mit entfernten Schichten geschätzt. Dieser metrikgesteuerte Ansatz erfasst die tatsächliche Wichtigkeitsstruktur des Modells und des Datensatzes und ermöglicht eine prinzipientreue Tiefenauswahl während des elastischen Trainings.

Elastische Formulierung

Die Architektur basiert auf einer verschachtelten Gewichtsteilung, die es einem einzigen hybriden LLM ermöglicht, sich dynamisch an mehrere Ressourcenbeschränkungen anzupassen. Die Modellarchitektur kann sowohl in der Breite (Einbettungsgröße, Aufmerksamkeits-Heads, FFN-Zwischendimensionen, Mamba-Heads und Head-Kanäle) als auch in der Tiefe (Anzahl der Schichten) angepasst werden. Dies ermöglicht die sofortige Generierung von Subnetzwerken mit unterschiedlichen Parameterbudgets ohne zusätzliche Feinabstimmung.

Für die Breiten-Dimensionen werden elastische Optionen für jede Komponente definiert. Der Router wählt zur Trainingszeit die geeigneten Dimensionen, um ein Zielbudget zu erfüllen. Die verschachtelte Struktur stellt sicher, dass kleinere Subnetzwerke immer eine zusammenhängende Teilmenge der von größeren Varianten beibehaltenen Neuronen, Heads und Kanäle verwenden, was durch die wichtigkeitbasierte Rangfolge erreicht wird.

Die Tiefen-Elastizität wird durch einen binären Auswahlvektor gesteuert, der bestimmt, ob eine Schicht in einem Subnetzwerk aktiv ist. Schichten mit dem Wert Null werden über Residualverbindungen umgangen, wodurch der Gradientenfluss erhalten bleibt und die Berechnung reduziert wird. Die wichtigkeitbasierte Schichtrangfolge stellt sicher, dass kritische Schichten bei geringeren Budgets bevorzugt beibehalten werden.

Bei hybriden Modellen, die Mamba und Attention kombinieren, muss die elastische Formulierung die strukturellen Einschränkungen beider Komponenten berücksichtigen. Mamba-Schichten erfordern gruppenbewusstes Pruning und Kanalkonsistenz, während Aufmerksamkeits-Schichten eine Head-weise Auswahl erfordern. Der Router optimiert die Auswahl über beide Schichttypen und alle Breiten-Dimensionen hinweg, um Architekturen zu finden, die die Stärken von Mambas effizienter Sequenzverarbeitung und Attentions kontextuellen Schlussfolgerungsfähigkeiten ausbalancieren.

Elastisches Training

Der Router ist ein dediziertes Netzwerk, das die Architektursuche über den Zielkonfigurationsraum durchführt. Jeder Router besteht aus zwei vollständig verbundenen Schichten mit Leaky ReLU-Aktivierung. Der Input des Routers ist ein One-Hot-kodierter Vektor, der das Zielkompressionslevel darstellt.

Die Router-Outputs werden durch Gumbel-Softmax geleitet, um weiche Wahrscheinlichkeitsverteilungen über Konfigurationsoptionen zu erzeugen. Der Router wird gemeinsam trainiert, um ein ressourcenbewusstes Ziel zu optimieren, das ausgewählte Konfigurationen Hardware- und Rechenbeschränkungen zuordnet. Dies ermöglicht dem Router, autonom den gemeinsamen Architekturraum zu durchsuchen, mehrere Ziele auszugleichen und Pareto-optimale Konfigurationen zu entdecken.

Das Framework unterstützt verschiedene Verlustformulierungen, darunter Kreuzentropie-Verlust und Knowledge Distillation (KD). Im KD-Modus verbessert das Modell seine Genauigkeit, indem es Wissen von einem Lehrermodell überträgt. Der Lehrermodus kann trainierbar oder eingefroren sein. Bei eingefrorenen Lehrern bleiben die Parameter des Lehrermodells während des gesamten Trainings fest, was den Rechenaufwand reduziert und eine stabile, konsistente Überwachung bietet.

Die gemeinsame Optimierung von Modell und Router wird durch ein kombiniertes Ziel erreicht, das die Aufgaben-Genauigkeit mit den Ressourcenbeschränkungen abgleicht. Diese enge Kopplung zwischen NAS (Neural Architecture Search) und dem Trainingsziel unterscheidet Nemotron Elastic von früheren Methoden.

Zweistufiges Training mit Curriculum-basiertem Sampling

Ein zentraler Aspekt ist die zweistufige Trainingsstrategie, die eine sorgfältig orchestrierte Datenzuteilung über die Budgetziele hinweg erfordert, um Trainingsungleichgewichte zu vermeiden. Dies ist besonders kritisch für Reasoning-Modelle, deren Aufgabenkomplexität anspruchsvolle Architekturentscheidungen erfordert.

Phase 1 (Kurzer Kontext): In der initialen Phase mit kurzer Sequenzlänge (8192 Tokens) wird ein gleichmäßiges Budget-Sampling eingesetzt. Jede Trainings-Batch erhält eine gleiche Zuteilung für alle Zielbudgets (z.B. 1/3 für 6B, 9B, 12B). Dies stellt sicher, dass alle Subnetzwerke ein ausgewogenes Trainingssignal erhalten, was die Router-Stabilisierung ermöglicht und die Entdeckung diverser Architekturmuster fördert.
Phase 2 (Erweiterter Kontext): Während des Trainings mit erweiterter Sequenzlänge (49152 Tokens) wird auf ein nicht-uniformes Sampling umgestellt, das Modelle mit vollem Budget priorisiert (z.B. 12B: 0.5, 9B: 0.3, 6B: 0.2). Diese Verteilung adressiert ein empirisch beobachtetes Trainingsungleichgewicht, bei dem eine uniforme Stichprobenentnahme im erweiterten Kontext zu einer Leistungsverschlechterung im Vollmodell führte, während kleinere Budgets sich verbesserten. Die angepasste Gewichtung stellt das Gleichgewicht wieder her, sodass alle Modellvarianten eine starke Leistung beibehalten.

Diese zweistufige Sampling-Strategie koppelt das Multi-Budget-Training direkt an den Architekturentdeckungsprozess des Routers und stellt sicher, dass sich Architekturentscheidungen als Reaktion auf die tatsächliche Schwierigkeit der Trainingsaufgaben in jeder Phase entwickeln.

Implementierung und Maskengenerierung

Die elastische Architektur wird durch strukturierte Maskierung implementiert, die auf das hybride Mamba-Attention-MLP-Modell angewendet wird. Anstatt die Netzwerktopologie zu modifizieren oder separate Subnetzwerke zu erstellen, werden dimensionsspezifische binäre Masken verwendet, die dynamisch aktive Komponenten auswählen. Dieser Maskierungsansatz ermöglicht ein effizientes Training mehrerer Budgets gleichzeitig.

Die Masken werden aus den Router-Outputs mittels Gumbel-Softmax generiert. Im homogenen Modus wird die binäre Maske durch Auswahl der wichtigsten Komponenten gemäß der Wichtigkeitsrangfolge erstellt. Im heterogenen Modus wird der Router-Output in schichtweise Auswahlmöglichkeiten unterteilt, was unterschiedliche Kompressionsverhältnisse pro Schicht erlaubt. Die generierten Masken werden dann auf die dynamischen Modelloperatoren angewendet, um die Kapazität des Modells dynamisch anzupassen.

Elastische Modellbereitstellung

Ein wesentlicher Vorteil von Nemotron Elastic ist die Fähigkeit, mehrere Modellvarianten aus einem einzigen trainierten Checkpoint zu extrahieren, ohne separates Training oder Feinabstimmung zu erfordern. Dies wird durch einen gelernten Slicing-Mechanismus erreicht, der das während der elastischen Trainingsphase trainierte Router-Modul nutzt. Nach dem Training hat der Router optimale, budgetbewusste Entscheidungen für jede Schicht und Komponente (Aufmerksamkeits-Heads, Mamba, FFN, Embeddings) gelernt. Im Deployment-Fall kann der Router mit der Budgetspezifikation aufgerufen werden, um die zu behaltenden Komponenten zu identifizieren. Diese Komponenten werden dann dauerhaft aus dem Checkpoint entfernt, wodurch ein verschachteltes Subnetzwerk extrahiert wird, das der gewünschten Parameteranzahl entspricht.

Dieser Zero-Shot-Slicing-Vorgang ist rechnerisch vernachlässigbar und erzeugt sofort ein inferenzbereites Modell. Jeder Budget-Typ, der während des Trainings erkundet wurde, kann direkt aus dem einzigen Vollmodell-Checkpoint bereitgestellt werden. Dies ermöglicht eine dynamische Modellauswahl basierend auf Latenz- oder Ressourcenbeschränkungen pro Anfrage. Alle extrahierten Varianten teilen dieselben gelernten Repräsentationen und Architekturentscheidungen, was die Konsistenz über die Modellfamilie hinweg sicherstellt.

Experimente und Ergebnisse

Die Evaluierung von Nemotron Elastic erfolgte durch die Komprimierung des NVIDIA Nemotron Nano V2 12B Hybridmodells. Ziel war die gleichzeitige Erzeugung von 9B- und 6B-Modellen, die 25% bzw. 50% Kompression darstellen.

Experimentelle Einrichtung

Alle Experimente verwendeten denselben Kompressionsdatensatz, der auch für das Training von Nemotron NanoV2 9B (Basis- und Reasoning-Varianten) genutzt wurde. Die Bewertung erfolgte über eine umfassende Suite von Reasoning- und Wissens-Benchmarks, darunter MMLU-Pro, GPQA, MATH-500, AIME-2024, AIME-2025 und LiveCodeBench v5.

Das Training erfolgte in zwei Phasen:

Phase 1 (Kurzer Kontext): Batch-Größe 1536, Sequenzlänge 8192, trainiert für ca. 65B Tokens.
Phase 2 (Erweiterter Kontext): Batch-Größe 512, Sequenzlänge 49152, trainiert für ca. 45B Tokens.

Für die Budget-Sampling-Strategie wurde in Phase 1 ein uniformes Sampling (1/3 für jedes Modell) und in Phase 2 ein gewichtetes, nicht-uniformes Sampling (12B: 0.5, 9B: 0.3, 6B: 0.2) angewendet, um eine Leistungsverschlechterung bei größeren Modellen zu verhindern.

Ergebnisse

Die Multi-Budget-Kompression liefert drei Modellvarianten aus einem einzigen Trainingslauf. Das Nemotron-Elastic-12B-Modell erreichte eine Leistung, die mit NanoV2-12B auf den meisten Reasoning-Benchmarks vergleichbar ist (Durchschnittswert von 77.41 gegenüber 77.38 für NanoV2-12B).

Die Kosteneinsparungen sind erheblich: Nemotron Elastic reduziert den Trainings-Token-Bedarf und den Bereitstellungsspeicher im Vergleich zu früheren Kompressionsansätzen erheblich. Es eliminiert die explorativen Knowledge-Distillation-Läufe, die bei Methoden wie Minitron-SSM erforderlich waren, und führt eine end-to-end Router-geführte Architektursuche in einem einzigen elastischen Trainingslauf durch. Dies führt zu einer Reduzierung des Token-Bedarfs um das 7-fache im Vergleich zu Minitron-SSM. Der Speicherbedarf für die Bereitstellung ist ebenfalls deutlich geringer; Nemotron Elastic benötigt 43% weniger Speicher als NanoV2, obwohl es drei Modelle anstelle von zwei speichert.

Auswirkungen des zweistufigen Trainings

Das zweistufige Training ist für Reasoning-Aufgaben entscheidend. Insbesondere die zweite Phase des erweiterten Kontexttrainings liefert unverhältnismäßige Verbesserungen bei komplexen Reasoning-Benchmarks (z.B. AIME-2025), vor allem für kleinere Modelle. Das 6B-Modell verzeichnete einen Zuwachs von 19.8% bei AIME-2025, während das 12B-Modell einen Zuwachs von 4.0% erzielte. Dies unterstreicht, dass kürzere Kontext-Trainingsphasen den Router stabilisieren und die anfängliche Wiederherstellung der komprimierten Submodelle unterstützen, während längere Kontext-Trainingsphasen die Langkontext-Reasoning-Fähigkeit verbessern.

Ablationsstudien zeigten, dass eine angepasste, nicht-uniforme Stichprobenentnahme die Leistung des Vollbudget-Modells erheblich verbessert. Bei uniformem Sampling im erweiterten Kontext verschlechterte sich die Genauigkeit des 12B-Modells erheblich, während kleinere Varianten wettbewerbsfähig blieben. Die angepasste Gewichtung stellte die Leistung des Vollmodells wieder her, was die Notwendigkeit eines budgetbewussten Lehrplanentwurfs für eine ausgewogene Multi-Target-Elastizitätskompression bestätigt.

Fazit

Nemotron Elastic stellt einen bedeutenden Fortschritt im Training von Reasoning-fähigen LLMs dar. Es adressiert die Herausforderungen der Skalierung und Bereitstellung von Modellfamilien durch einen innovativen Ansatz, der Kosten und Ressourcen erheblich reduziert, ohne die Genauigkeit zu beeinträchtigen. Die Fähigkeit, mehrere Modelle aus einem einzigen Trainingslauf zu extrahieren, kombiniert mit einem konstanten Speicherbedarf im Einsatz, eröffnet neue Möglichkeiten für Unternehmen, leistungsstarke Reasoning-Modelle effizient zu nutzen und an unterschiedliche Hardware- und Latenzanforderungen anzupassen.

Zukünftige Forschungsrichtungen könnten die Skalierung auf größere Modellfamilien, die aufgabenspezifische Architekturauswahl, dynamisches Routing zur Inferenzzeit und die Integration mit Quantisierung für eine extreme Parameterreduzierung umfassen.

Bibliography

- Ali Taghibakhshi, Sharath Turuvekere Sreenivas, Saurav Muralidharan, Ruisi Cai, Marcin Chochowski, Ameya Sunil Mahabaleshwarkar, Yoshi Suhara, Oluwatobi Olabiyi, Daniel Korzekwa, Mostofa Patwary, Mohammad Shoeybi, Jan Kautz, Bryan Catanzaro, Ashwath Aithal, Nima Tajbakhsh, Pavlo Molchanov. Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs. arXiv:2511.16664, 2025. - Rohail T. Nemotron Elastic LLMs Achieve 7x Efficiency With Nested Submodels, Reducing Costs. Quantum Zeitgeist, 2025. - TheMoonlight.io. [Literature Review] Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs. 2025.