NVIDIA präsentiert Nemotron-Cascade-2-30B-A3B: Effiziente KI mit hoher Intelligenzdichte

Kategorien:

No items found.

Freigegeben:

March 25, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Der schnelle Überblick

NVIDIA hat ein neues KI-Modell namens Nemotron-Cascade-2-30B-A3B vorgestellt, das mit 3 Milliarden aktiven Parametern beeindruckende Denkfähigkeiten bietet.
Das Modell erreichte Goldmedaillen-Niveau bei der Internationalen Mathematik-Olympiade (IMO 2025), der Internationalen Informatik-Olympiade (IOI 2025) und den ICPC World Finals 2025.
Ein zentraler Aspekt ist die hohe "Intelligenzdichte", die es dem Modell ermöglicht, mit deutlich weniger aktiven Parametern ähnliche Leistungen wie weitaus größere Modelle zu erzielen.
Die Effizienz wird durch eine Mixture-of-Experts (MoE)-Architektur und ein innovatives Post-Training-Verfahren namens Cascade RL mit Multi-Domain On-Policy Distillation (MOPD) erreicht.
Das Modell unterstützt sowohl einen "Denkmodus" für komplexe Problemlösungen als auch einen "Instruktionsmodus" für schnelle, direkte Antworten. Es ist quelloffen verfügbar.

Die Landschaft der Künstlichen Intelligenz wird kontinuierlich durch innovative Entwicklungen geprägt. Eine dieser Entwicklungen, die jüngst Aufmerksamkeit erregte, ist die Vorstellung des Modells Nemotron-Cascade-2-30B-A3B durch NVIDIA. Dieses Modell, das sich durch eine bemerkenswerte Effizienz und Leistungsfähigkeit auszeichnet, positioniert sich als ein wichtiger Akteur im Bereich der großen Sprachmodelle (LLMs), insbesondere für anspruchsvolle Denk- und Agentenaufgaben.

Nemotron-Cascade-2-30B-A3B: Eine neue Ära der Effizienz

Das Nemotron-Cascade-2-30B-A3B-Modell, das am 19. März 2026 veröffentlicht wurde, ist ein Open-Source-Modell mit insgesamt 30 Milliarden Parametern, von denen jedoch nur 3 Milliarden pro Token aktiv sind. Diese Architektur, bekannt als Mixture-of-Experts (MoE), ermöglicht es dem Modell, für jede Inferenz nur einen kleinen Teil seiner Kapazität zu nutzen, was es im Vergleich zu dichten Modellen derselben Gesamtgröße erheblich effizienter macht. Es ist ein Post-Training-Produkt des Nemotron-3-Nano-30B-A3B-Base-Modells.

Benchmark-Erfolge und "Goldmedaillen"-Leistung

Die Leistungsfähigkeit des Nemotron-Cascade-2-30B-A3B wurde durch seine Ergebnisse in renommierten Wettbewerben unterstrichen. Es erreichte Goldmedaillen-Niveau bei der Internationalen Mathematik-Olympiade (IMO 2025), der Internationalen Informatik-Olympiade (IOI 2025) und den ICPC World Finals 2025. Dies ist besonders bemerkenswert, da es das zweite Open-Source-LLM ist, das dieses Leistungsniveau erreicht, und dies mit einem 20-fach geringeren Parameteraufwand im Vergleich zu früheren Modellen wie DeepSeek-V3.2-Speciale-671B-A37B.

Konkrete Ergebnisse umfassen:

Mathematik: 35 Punkte bei der IMO 2025 (Goldmedaille), 92.4 (98.6 mit TIR) bei AIME 2025, 94.6 bei HMMT Feb 2025.
Code Reasoning: 439.3 Punkte bei der IOI 2025 (Goldmedaille), 10 von 12 Aufgaben bei den ICPC World Finals 2025, 87.2 bei LiveCodeBench v6.
Wissen & MINT: 76.1 bei GPQA-Diamond, 79.8 bei MMLU-Pro.
Befolgung von Anweisungen: 83.5 bei ArenaHard v2 (Durchschnitt), 82.9 bei IFBench.
Langer Kontext: 99.0 bei NIAH@1M Token, was die Fähigkeit des Modells hervorhebt, Informationen zuverlässig in sehr langen Texten zu finden.

Technische Innovationen: Cascade RL und MOPD

Der Erfolg des Nemotron-Cascade-2-30B-A3B basiert auf zwei Schlüsseltechniken im Post-Training-Prozess:

Cascade Reinforcement Learning (Cascade RL)

Dieses Verfahren trainiert das Modell sequenziell in verschiedenen Domänen, anstatt alle Domänen gleichzeitig zu bearbeiten. Dies hilft, das sogenannte "katastrophale Vergessen" zu vermeiden, bei dem die Verbesserung in einer Domäne zu einer Verschlechterung in einer anderen führen kann. Die Trainingsstufen sind spezifisch angeordnet, beginnend mit der Befolgung von Anweisungen, gefolgt von Multi-Domain-RL (Mathematik, Code, Wissenschaft, Werkzeugaufrufe) und weiteren spezialisierten RL-Stufen.

Multi-Domain On-Policy Distillation (MOPD)

MOPD ist eine Technik, die während des Cascade RL-Prozesses eingesetzt wird, um die Fähigkeiten des Modells wieder ins Gleichgewicht zu bringen. Es wählt die leistungsstärksten Zwischen-Checkpoints des Modells für jede spezifische Domäne aus und nutzt diese als "Lehrer", um Wissen in das "Schülermodell" zu destillieren. Dies ermöglicht eine schnelle Wiederherstellung der Leistung bei Rückschritten und eine nachhaltige Verbesserung der Fähigkeiten.

Architektur und Betriebsmodi

Das Modell integriert eine hybride Mamba-Transformer-MoE-Architektur. Mamba-Schichten tragen dazu bei, die Verarbeitung von Token in langen Kontexten effizienter zu gestalten als herkömmliche Transformer-Aufmerksamkeitsschichten, was eine Kontextfenstergröße von bis zu 1 Million Token ermöglicht.

Nemotron-Cascade-2-30B-A3B unterstützt zwei Hauptbetriebsmodi:

Denkmodus (Thinking Mode): Dieser Modus ist für komplexe Probleme konzipiert, bei denen eine ausführliche Denkweise (Chain-of-Thought) erforderlich ist. Die Denkprozesse werden explizit ausgegeben.
Instruktionsmodus (Instruct Mode): Dieser Modus dient schnellen und direkten Antworten ohne detaillierte Denkprozesse.

Die Umschaltung zwischen diesen Modi erfolgt über das Chat-Template, nicht über separate Modellgewichte. Der Denkmodus wird durch ` ` und ` ` Tags im Output gekennzeichnet.

Praktische Implikationen für Unternehmen

Für B2B-Anwendungen bieten die Innovationen des Nemotron-Cascade-2-30B-A3B mehrere wichtige Vorteile:

Kosteneffizienz: Durch die MoE-Architektur und die geringe Anzahl aktiver Parameter können hochleistungsfähige Denkmodelle mit einem Bruchteil der Kosten und Latenz von dichteren Modellen betrieben werden. Dies ermöglicht den Einsatz auf einzelnen High-End-GPUs.
Anpassungsfähigkeit: Die sequentielle Domänenordnung in Cascade RL erlaubt es Unternehmen, neue Fähigkeiten hinzuzufügen, ohne die gesamte Pipeline neu aufbauen zu müssen, was eine schnelle Iteration und Anpassung an spezifische Anwendungsfälle unterstützt.
Wiederverwendbarkeit von Trainingsdaten: MOPD ermöglicht die Nutzung eigener leistungsstarker Zwischen-Checkpoints als domänenspezifische Lehrer, wodurch die Notwendigkeit teurer externer Lehrermodelle entfällt.
Anwendungsbereiche: Das Modell eignet sich hervorragend für Bereiche, die präzises logisches Denken und die Befolgung von Anweisungen erfordern, wie etwa Finanzmodellierung, wissenschaftliches Rechnen, Softwareentwicklung und Compliance-Analyse.

Offene Fragen und zukünftige Entwicklungen

Obwohl Nemotron-Cascade-2-30B-A3B beeindruckende Leistungen in bestimmten Domänen zeigt, gibt es auch Bereiche mit Potenzial für Verbesserungen. Das Modell zeigt beispielsweise eine geringere Leistung bei wissensintensiven Aufgaben im Vergleich zu einigen Konkurrenzmodellen wie Qwen3.5-35B-A3B. Dies deutet auf die Notwendigkeit einer stärkeren wissensintensiven Vor- und Nachschulung in zukünftigen Arbeiten hin.

Die Offenlegung der Modellgewichte, der SFT- und RL-Datensätze sowie der Trainingsskripte ermöglicht es der Forschungsgemeinschaft, diese Ansätze zu reproduzieren, zu erweitern und weiter zu optimieren. Dies fördert die Entwicklung von LLMs, die nicht nur leistungsfähig, sondern auch effizient und zugänglich sind.

Die Einführung des Nemotron-Cascade-2-30B-A3B-Modells markiert einen wichtigen Schritt in der Entwicklung von KI, indem es die Bedeutung der "Intelligenzdichte" hervorhebt und demonstriert, dass fortschrittliche Denkfähigkeiten nicht ausschließlich an die schiere Größe eines Modells gebunden sind. Stattdessen spielen innovative Post-Training-Methoden und eine effiziente Architektur eine entscheidende Rolle für die Erzielung von Spitzenleistungen.

Bibliographie

- airesearchnews. (2026, March 20). Nemotron-Cascade 2 achieves Gold Medal performance in three major programming competitions (IMO, IOI, ICPC) with just 30B parameters and 3B active per token. Instagram. - Labonne, M. (2026, March 23). Nemotron Cascade 2: On-policy distillation is back! Maxime Labonne. - nvidia. (2026, March 20). nvidia/Nemotron-Cascade-2-30B-A3B. Hugging Face. - Reeboot - Solutions logicielles sur mesure. (2026, March 24). Nemotron Cascade 2 30B-A3B: Gold medals at IMO and IOI 2025. Reeboot.fr. - VentureBeat. (2026, March 23). Nvidia's Nemotron-Cascade 2 wins math and coding gold medals with 3B active parameters — and its post-training recipe is now open-source. VentureBeat. - Yang, Z., Liu, Z., Chen, Y., Dai, W., Wang, B., Lin, S.-C., Lee, C., Chen, Y., Jiang, D., He, J., Pi, R., Lam, G., Lee, N., Bukharin, A., Shoeybi, M., Catanzaro, B., & Ping, W. (2026). Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation. Emergentmind.com. - Zhang, S. (2026, March 22). Nemotron-Cascade 2: 30B Open MoE, One GPU, Beats 120B. Awesome Agents.