Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Entwicklung und Bereitstellung von Large Language Models (LLMs) mit unterschiedlichen Skalierungen und Einsatzszenarien erfordert traditionell immense Rechenressourcen. Jede Modellgröße musste separat trainiert werden, was zu explodierenden Kosten und einem erheblichen Zeitaufwand führte. Eine kürzlich vorgestellte Innovation, das Nemotron Elastic Framework, verspricht hier eine grundlegende Veränderung. Dieses Framework ermöglicht die effiziente Entwicklung von Reasoning-LLMs, einschließlich hybrider Mamba-Attention-Architekturen, die mehrere verschachtelte Submodelle innerhalb eines einzigen Elternmodells integrieren.
Große Sprachmodelle haben sich als äußerst leistungsfähig erwiesen, doch die Skalierung bringt erhebliche Kosten mit sich. Das Training einer Familie von LLMs, die verschiedene Modellgrößen für unterschiedliche Einsatzszenarien umfassen, erforderte bisher separate Trainingsläufe für jede Variante. Beispielsweise wurden die Modelle der Llama-3.1-Familie mit 8B, 70B und 405B Parametern jeweils unabhängig voneinander auf Billionen von Tokens trainiert. Dieser Ansatz vervielfacht nicht nur die Infrastrukturkosten, sondern begrenzt auch die Möglichkeiten, Modelle effizient an spezifische Ressourcenbeschränkungen anzupassen.
Aktuelle Fortschritte in der Modellkompression, wie strukturiertes Pruning und Knowledge Distillation, haben die Kosten reduziert. Diese Methoden trainieren zwar nur das größte Modell von Grund auf und leiten kleinere Varianten durch Pruning und erneutes Training ab. Dennoch sind hierfür Hunderte von Milliarden Trainings-Tokens pro komprimiertem Modell erforderlich, was die Gesamtkosten weiterhin hoch hält. Eine vielversprechende Alternative sind sogenannte "elastische" oder Matrjoschka-ähnliche, verschachtelte Netzwerke, bei denen Submodelle ohne zusätzliches Training oder Feinabstimmung aus einem Elternmodell extrahiert werden können und Gewichte mit diesem teilen.
Zwei weitere Trends beeinflussen die Notwendigkeit effizienterer Methoden: zum einen der Aufstieg hybrider Modelle, die Aufmerksamkeitsmechanismen mit State Space Models (SSMs) wie Mamba kombinieren. Diese Architekturen bieten eine überlegene Effizienz durch reduzierte KV-Cache-Anforderungen und lineare Zeitverarbeitung bei gleichbleibender Genauigkeit. Zum anderen der Übergang von Basis- zu Reasoning-Modellen, die komplexe Probleme durch erweiterte Denkketten lösen und dafür erhebliche Token-Budgets für Zwischenschritte benötigen. Bestehende Kompressionstechniken adressieren diese doppelten Anforderungen bisher nicht ausreichend.
Nemotron Elastic stellt ein Framework vor, das hybride LLMs trainiert, die über einen end-to-end trainierten Router gleichzeitig mehrere Bereitstellungskonfigurationen unterstützen. Der Ansatz generiert mehrere verschachtelte Subnetzwerke mit unterschiedlichen Parameterbudgets aus einem einzigen elastischen Trainingslauf. Jedes dieser Submodelle ist durch ein zweistufiges Curriculum, das die Langkontextfähigkeit priorisiert, auf Schlussfolgerungen optimiert.
Die Anwendung von Nemotron Elastic auf das Nemotron Nano V2 12B Modell führte zur gleichzeitigen Produktion eines 9B- und eines 6B-Modells unter Verwendung von lediglich 110 Milliarden Trainings-Tokens. Dies bedeutet eine Kostensenkung um über das 360-fache im Vergleich zum Training von Modellfamilien von Grund auf und eine etwa 7-fache Reduktion im Vergleich zu modernen Kompressionstechniken. Jedes der verschachtelten Modelle erreicht dabei eine gleichwertige oder bessere Genauigkeit als der aktuelle Stand der Technik. Im Gegensatz zu anderen Kompressionsmethoden ermöglicht der verschachtelte Ansatz ein "Viele-in-einem"-Reasoning-Modell, das einen konstanten Speicherbedarf für die Bereitstellung aufweist, unabhängig von der Anzahl der Modelle in der Familie.
Die wesentlichen Beiträge von Nemotron Elastic umfassen:
Das Nemotron Elastic Framework basiert auf mehreren Kernkomponenten:
Die Wichtigkeit von Komponenten leitet die Architektursuche, indem sie jene Elemente identifiziert, die am meisten zur Modellleistung beitragen. Dies geschieht mithilfe eines aktivierungsbasierten Ansatzes. Für jede Breiten-Dimension (Einbettungskanäle, Mamba-Heads, Aufmerksamkeits-Heads, FFN-Neuronen) werden Wichtigkeitswerte aus der Vorwärtspropagation berechnet. Für Mamba-Komponenten werden Scores aus den Projektionsmatrix-Ausgaben extrahiert, wobei gruppenbewusste Einschränkungen berücksichtigt werden, um die SSM-Struktur zu erhalten. Die Komponenten werden dann absteigend nach Wichtigkeit sortiert, um eine Rangfolge zu erstellen, die die Auswahl des Routers bei verschiedenen Kompressionsbudgets leitet.
Die Schichtwichtigkeit wird iterativ durch den normalisierten mittleren quadratischen Fehler (MSE) zwischen den Vorhersagen des vollständigen Modells und den Vorhersagen mit entfernten Schichten geschätzt. Dieser metrikgesteuerte Ansatz erfasst die tatsächliche Wichtigkeitsstruktur des Modells und des Datensatzes und ermöglicht eine prinzipientreue Tiefenauswahl während des elastischen Trainings.
Die Architektur basiert auf einer verschachtelten Gewichtsteilung, die es einem einzigen hybriden LLM ermöglicht, sich dynamisch an mehrere Ressourcenbeschränkungen anzupassen. Die Modellarchitektur kann sowohl in der Breite (Einbettungsgröße, Aufmerksamkeits-Heads, FFN-Zwischendimensionen, Mamba-Heads und Head-Kanäle) als auch in der Tiefe (Anzahl der Schichten) angepasst werden. Dies ermöglicht die sofortige Generierung von Subnetzwerken mit unterschiedlichen Parameterbudgets ohne zusätzliche Feinabstimmung.
Für die Breiten-Dimensionen werden elastische Optionen für jede Komponente definiert. Der Router wählt zur Trainingszeit die geeigneten Dimensionen, um ein Zielbudget zu erfüllen. Die verschachtelte Struktur stellt sicher, dass kleinere Subnetzwerke immer eine zusammenhängende Teilmenge der von größeren Varianten beibehaltenen Neuronen, Heads und Kanäle verwenden, was durch die wichtigkeitbasierte Rangfolge erreicht wird.
Die Tiefen-Elastizität wird durch einen binären Auswahlvektor gesteuert, der bestimmt, ob eine Schicht in einem Subnetzwerk aktiv ist. Schichten mit dem Wert Null werden über Residualverbindungen umgangen, wodurch der Gradientenfluss erhalten bleibt und die Berechnung reduziert wird. Die wichtigkeitbasierte Schichtrangfolge stellt sicher, dass kritische Schichten bei geringeren Budgets bevorzugt beibehalten werden.
Bei hybriden Modellen, die Mamba und Attention kombinieren, muss die elastische Formulierung die strukturellen Einschränkungen beider Komponenten berücksichtigen. Mamba-Schichten erfordern gruppenbewusstes Pruning und Kanalkonsistenz, während Aufmerksamkeits-Schichten eine Head-weise Auswahl erfordern. Der Router optimiert die Auswahl über beide Schichttypen und alle Breiten-Dimensionen hinweg, um Architekturen zu finden, die die Stärken von Mambas effizienter Sequenzverarbeitung und Attentions kontextuellen Schlussfolgerungsfähigkeiten ausbalancieren.
Der Router ist ein dediziertes Netzwerk, das die Architektursuche über den Zielkonfigurationsraum durchführt. Jeder Router besteht aus zwei vollständig verbundenen Schichten mit Leaky ReLU-Aktivierung. Der Input des Routers ist ein One-Hot-kodierter Vektor, der das Zielkompressionslevel darstellt.
Die Router-Outputs werden durch Gumbel-Softmax geleitet, um weiche Wahrscheinlichkeitsverteilungen über Konfigurationsoptionen zu erzeugen. Der Router wird gemeinsam trainiert, um ein ressourcenbewusstes Ziel zu optimieren, das ausgewählte Konfigurationen Hardware- und Rechenbeschränkungen zuordnet. Dies ermöglicht dem Router, autonom den gemeinsamen Architekturraum zu durchsuchen, mehrere Ziele auszugleichen und Pareto-optimale Konfigurationen zu entdecken.
Das Framework unterstützt verschiedene Verlustformulierungen, darunter Kreuzentropie-Verlust und Knowledge Distillation (KD). Im KD-Modus verbessert das Modell seine Genauigkeit, indem es Wissen von einem Lehrermodell überträgt. Der Lehrermodus kann trainierbar oder eingefroren sein. Bei eingefrorenen Lehrern bleiben die Parameter des Lehrermodells während des gesamten Trainings fest, was den Rechenaufwand reduziert und eine stabile, konsistente Überwachung bietet.
Die gemeinsame Optimierung von Modell und Router wird durch ein kombiniertes Ziel erreicht, das die Aufgaben-Genauigkeit mit den Ressourcenbeschränkungen abgleicht. Diese enge Kopplung zwischen NAS (Neural Architecture Search) und dem Trainingsziel unterscheidet Nemotron Elastic von früheren Methoden.
Ein zentraler Aspekt ist die zweistufige Trainingsstrategie, die eine sorgfältig orchestrierte Datenzuteilung über die Budgetziele hinweg erfordert, um Trainingsungleichgewichte zu vermeiden. Dies ist besonders kritisch für Reasoning-Modelle, deren Aufgabenkomplexität anspruchsvolle Architekturentscheidungen erfordert.
Diese zweistufige Sampling-Strategie koppelt das Multi-Budget-Training direkt an den Architekturentdeckungsprozess des Routers und stellt sicher, dass sich Architekturentscheidungen als Reaktion auf die tatsächliche Schwierigkeit der Trainingsaufgaben in jeder Phase entwickeln.
Die elastische Architektur wird durch strukturierte Maskierung implementiert, die auf das hybride Mamba-Attention-MLP-Modell angewendet wird. Anstatt die Netzwerktopologie zu modifizieren oder separate Subnetzwerke zu erstellen, werden dimensionsspezifische binäre Masken verwendet, die dynamisch aktive Komponenten auswählen. Dieser Maskierungsansatz ermöglicht ein effizientes Training mehrerer Budgets gleichzeitig.
Die Masken werden aus den Router-Outputs mittels Gumbel-Softmax generiert. Im homogenen Modus wird die binäre Maske durch Auswahl der wichtigsten Komponenten gemäß der Wichtigkeitsrangfolge erstellt. Im heterogenen Modus wird der Router-Output in schichtweise Auswahlmöglichkeiten unterteilt, was unterschiedliche Kompressionsverhältnisse pro Schicht erlaubt. Die generierten Masken werden dann auf die dynamischen Modelloperatoren angewendet, um die Kapazität des Modells dynamisch anzupassen.
Ein wesentlicher Vorteil von Nemotron Elastic ist die Fähigkeit, mehrere Modellvarianten aus einem einzigen trainierten Checkpoint zu extrahieren, ohne separates Training oder Feinabstimmung zu erfordern. Dies wird durch einen gelernten Slicing-Mechanismus erreicht, der das während der elastischen Trainingsphase trainierte Router-Modul nutzt. Nach dem Training hat der Router optimale, budgetbewusste Entscheidungen für jede Schicht und Komponente (Aufmerksamkeits-Heads, Mamba, FFN, Embeddings) gelernt. Im Deployment-Fall kann der Router mit der Budgetspezifikation aufgerufen werden, um die zu behaltenden Komponenten zu identifizieren. Diese Komponenten werden dann dauerhaft aus dem Checkpoint entfernt, wodurch ein verschachteltes Subnetzwerk extrahiert wird, das der gewünschten Parameteranzahl entspricht.
Dieser Zero-Shot-Slicing-Vorgang ist rechnerisch vernachlässigbar und erzeugt sofort ein inferenzbereites Modell. Jeder Budget-Typ, der während des Trainings erkundet wurde, kann direkt aus dem einzigen Vollmodell-Checkpoint bereitgestellt werden. Dies ermöglicht eine dynamische Modellauswahl basierend auf Latenz- oder Ressourcenbeschränkungen pro Anfrage. Alle extrahierten Varianten teilen dieselben gelernten Repräsentationen und Architekturentscheidungen, was die Konsistenz über die Modellfamilie hinweg sicherstellt.
Die Evaluierung von Nemotron Elastic erfolgte durch die Komprimierung des NVIDIA Nemotron Nano V2 12B Hybridmodells. Ziel war die gleichzeitige Erzeugung von 9B- und 6B-Modellen, die 25% bzw. 50% Kompression darstellen.
Alle Experimente verwendeten denselben Kompressionsdatensatz, der auch für das Training von Nemotron NanoV2 9B (Basis- und Reasoning-Varianten) genutzt wurde. Die Bewertung erfolgte über eine umfassende Suite von Reasoning- und Wissens-Benchmarks, darunter MMLU-Pro, GPQA, MATH-500, AIME-2024, AIME-2025 und LiveCodeBench v5.
Das Training erfolgte in zwei Phasen:
Für die Budget-Sampling-Strategie wurde in Phase 1 ein uniformes Sampling (1/3 für jedes Modell) und in Phase 2 ein gewichtetes, nicht-uniformes Sampling (12B: 0.5, 9B: 0.3, 6B: 0.2) angewendet, um eine Leistungsverschlechterung bei größeren Modellen zu verhindern.
Die Multi-Budget-Kompression liefert drei Modellvarianten aus einem einzigen Trainingslauf. Das Nemotron-Elastic-12B-Modell erreichte eine Leistung, die mit NanoV2-12B auf den meisten Reasoning-Benchmarks vergleichbar ist (Durchschnittswert von 77.41 gegenüber 77.38 für NanoV2-12B).
Die Kosteneinsparungen sind erheblich: Nemotron Elastic reduziert den Trainings-Token-Bedarf und den Bereitstellungsspeicher im Vergleich zu früheren Kompressionsansätzen erheblich. Es eliminiert die explorativen Knowledge-Distillation-Läufe, die bei Methoden wie Minitron-SSM erforderlich waren, und führt eine end-to-end Router-geführte Architektursuche in einem einzigen elastischen Trainingslauf durch. Dies führt zu einer Reduzierung des Token-Bedarfs um das 7-fache im Vergleich zu Minitron-SSM. Der Speicherbedarf für die Bereitstellung ist ebenfalls deutlich geringer; Nemotron Elastic benötigt 43% weniger Speicher als NanoV2, obwohl es drei Modelle anstelle von zwei speichert.
Das zweistufige Training ist für Reasoning-Aufgaben entscheidend. Insbesondere die zweite Phase des erweiterten Kontexttrainings liefert unverhältnismäßige Verbesserungen bei komplexen Reasoning-Benchmarks (z.B. AIME-2025), vor allem für kleinere Modelle. Das 6B-Modell verzeichnete einen Zuwachs von 19.8% bei AIME-2025, während das 12B-Modell einen Zuwachs von 4.0% erzielte. Dies unterstreicht, dass kürzere Kontext-Trainingsphasen den Router stabilisieren und die anfängliche Wiederherstellung der komprimierten Submodelle unterstützen, während längere Kontext-Trainingsphasen die Langkontext-Reasoning-Fähigkeit verbessern.
Ablationsstudien zeigten, dass eine angepasste, nicht-uniforme Stichprobenentnahme die Leistung des Vollbudget-Modells erheblich verbessert. Bei uniformem Sampling im erweiterten Kontext verschlechterte sich die Genauigkeit des 12B-Modells erheblich, während kleinere Varianten wettbewerbsfähig blieben. Die angepasste Gewichtung stellte die Leistung des Vollmodells wieder her, was die Notwendigkeit eines budgetbewussten Lehrplanentwurfs für eine ausgewogene Multi-Target-Elastizitätskompression bestätigt.
Nemotron Elastic stellt einen bedeutenden Fortschritt im Training von Reasoning-fähigen LLMs dar. Es adressiert die Herausforderungen der Skalierung und Bereitstellung von Modellfamilien durch einen innovativen Ansatz, der Kosten und Ressourcen erheblich reduziert, ohne die Genauigkeit zu beeinträchtigen. Die Fähigkeit, mehrere Modelle aus einem einzigen Trainingslauf zu extrahieren, kombiniert mit einem konstanten Speicherbedarf im Einsatz, eröffnet neue Möglichkeiten für Unternehmen, leistungsstarke Reasoning-Modelle effizient zu nutzen und an unterschiedliche Hardware- und Latenzanforderungen anzupassen.
Zukünftige Forschungsrichtungen könnten die Skalierung auf größere Modellfamilien, die aufgabenspezifische Architekturauswahl, dynamisches Routing zur Inferenzzeit und die Integration mit Quantisierung für eine extreme Parameterreduzierung umfassen.
Bibliography
- Ali Taghibakhshi, Sharath Turuvekere Sreenivas, Saurav Muralidharan, Ruisi Cai, Marcin Chochowski, Ameya Sunil Mahabaleshwarkar, Yoshi Suhara, Oluwatobi Olabiyi, Daniel Korzekwa, Mostofa Patwary, Mohammad Shoeybi, Jan Kautz, Bryan Catanzaro, Ashwath Aithal, Nima Tajbakhsh, Pavlo Molchanov. Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs. arXiv:2511.16664, 2025. - Rohail T. Nemotron Elastic LLMs Achieve 7x Efficiency With Nested Submodels, Reducing Costs. Quantum Zeitgeist, 2025. - TheMoonlight.io. [Literature Review] Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs. 2025.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen