NVIDIA präsentiert Nemotron-Cascade 2-30B-A3B als neuestes Sprachmodell mit Mixture-of-Experts-Architektur

Kategorien:

No items found.

Freigegeben:

March 20, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

NVIDIA hat das Sprachmodell Nemotron-Cascade 2-30B-A3B veröffentlicht, ein Mixture-of-Experts (MoE) Modell mit 30 Milliarden Parametern, von denen 3 Milliarden aktiv sind.
Das Modell zeigt laut NVIDIA "Goldmedaillen"-Leistung bei den Internationalen Mathematik-Olympiaden (IMO) und Internationalen Informatik-Olympiaden (IOI) des Jahres 2025.
Nemotron-Cascade 2 ist darauf ausgelegt, komplexe Denk- und Agentenfunktionen zu ermöglichen, und soll auch auf Consumer-Hardware effizient laufen.
Die Veröffentlichung auf Hugging Face umfasst Modellgewichte, Trainingsdaten und einen technischen Bericht.
Die Architektur nutzt ein kaskadiertes Reinforcement Learning (Cascade RL) und Multi-Domain On-Policy Distillation.

NVIDIA hat mit der Veröffentlichung von Nemotron-Cascade 2-30B-A3B auf Hugging Face eine neue Entwicklung im Bereich der grossen Sprachmodelle (LLMs) vorgestellt. Dieses Modell, das als Mixture-of-Experts (MoE) konzipiert ist, verfügt über insgesamt 30 Milliarden Parameter, wobei während der Inferenz lediglich etwa 3 Milliarden Parameter aktiv sind. Dies deutet auf einen Fokus auf Effizienz bei gleichzeitig hohen Leistungsansprüchen hin.

Architektur und technische Details

Nemotron-Cascade 2-30B-A3B basiert auf einer Mixture-of-Experts (MoE)-Architektur. Diese Technologie ermöglicht es, Modelle mit einer sehr grossen Gesamtparameterzahl zu entwickeln, während der Rechenaufwand während der Inferenz durch die Aktivierung einer kleineren Teilmenge dieser Parameter pro Token reduziert wird. Im Falle von Nemotron-Cascade 2 bedeutet dies eine Aktivierungsrate von etwa 10% der Gesamtparameter (3 Milliarden von 30 Milliarden).

Die Entwicklung des Modells erfolgte durch ein sogenanntes Post-Training, das auf Nemotron-3-Nano-30B-A3B-Base aufbaut. Dabei kamen fortschrittliche Methoden wie kaskadiertes Reinforcement Learning (Cascade RL) und Multi-Domain On-Policy Distillation zum Einsatz. Diese Techniken zielen darauf ab, die Denk- und Agentenfunktionen des Modells zu verbessern und gleichzeitig eine hohe Leistung über verschiedene Domänen hinweg zu gewährleisten.

Das Modell ist in der Lage, sowohl in einem "Denkmodus" als auch in einem "Instruktionsmodus" (nicht-schlussfolgernd) zu operieren. Der Denkmodus ist für komplexe Aufgaben vorgesehen, während der Instruktionsmodus direkte Anweisungen verarbeitet. NVIDIA hat zudem einen Mechanismus implementiert, der in mehrstufigen Konversationen die Kontextlänge reduziert, indem bei vorherigen Denkmodus-Eingaben nur die finale Zusammenfassung der Modellausgabe in den Konversationsverlauf aufgenommen wird.

Leistungsansprüche und Benchmarks

NVIDIA beansprucht, dass Nemotron-Cascade 2-30B-A3B eine "Goldmedaillen"-Leistung bei den Internationalen Mathematik-Olympiaden (IMO) und den Internationalen Informatik-Olympiaden (IOI) des Jahres 2025 erzielt. Diese Wettbewerbe gelten als anspruchsvolle Massstäbe für fortgeschrittene mathematische und algorithmische Problemlösungsfähigkeiten. Ein Mitautor des Papers, selbst IMO-Goldmedaillengewinner von 2015, hat die vom Modell generierten Lösungen geprüft und bewertet, um dieses Ergebnis zu verifizieren.

In den veröffentlichten Benchmark-Ergebnissen werden folgende Werte hervorgehoben:

IMO 2025: 35 Punkte (Goldmedaille)
IMO AnswerBench: 79.3
IMO ProofBench: 72.9
IOI 2025: 439.3 Punkte (Goldmedaille)
ICPC World Finals 2025: 10/12 (Goldmedaille)
AIME 2025: 92.4 (mit 98.6 bei Tool-integriertem Denken)

Diese Ergebnisse positionieren Nemotron-Cascade 2 als leistungsstarkes Modell im Bereich des mathematischen und kodierungsbezogenen Denkens. Es wird berichtet, dass es selbst grössere Modelle wie Qwen3.5-35B-A3B und Nemotron-3-Super-120B-A12B in Schlüsselbereichen übertrifft.

Einsatzmöglichkeiten und Effizienz

Ein wesentlicher Aspekt des Nemotron-Cascade 2 ist die angestrebte Effizienz. Durch die MoE-Architektur und die geringe Anzahl aktivierter Parameter (3 Milliarden) soll das Modell auch auf gängiger Consumer-Hardware betrieben werden können. Bei einer 4-Bit-Quantisierung könnte es beispielsweise auf einer einzelnen 24-GB-Grafikkarte wie der RTX 4090 oder RTX 5090 laufen. Eine aggressivere 2- oder 3-Bit-Quantisierung würde den VRAM-Bedarf weiter auf 16 GB reduzieren, allerdings mit potenziell geringfügigen Qualitätseinbussen.

Diese Eigenschaft könnte die Zugänglichkeit fortgeschrittener KI-Modelle für eine breitere Nutzerbasis erhöhen und die Entwicklung und den Einsatz von KI-Anwendungen dezentralisieren. Für Unternehmen B2B-Bereich bedeutet dies möglicherweise eine kosteneffizientere Möglichkeit, hochleistungsfähige Sprachmodelle für spezialisierte Anwendungsfälle wie Code-Generierung, mathematische Problemlösung oder komplexe Argumentationsaufgaben zu nutzen, ohne auf teure Rechenzentrumsressourcen angewiesen zu sein.

Open-Source-Ansatz und Verfügbarkeit

NVIDIA hat Nemotron-Cascade 2-30B-A3B als Open-Weight-Modell auf Hugging Face veröffentlicht. Dies beinhaltet nicht nur die Modellgewichte, sondern auch die Trainingsdaten und einen detaillierten technischen Bericht. Dieser Ansatz fördert die Transparenz und ermöglicht der Forschungsgemeinschaft sowie Entwicklern, das Modell unabhängig zu bewerten, zu modifizieren und in eigene Projekte zu integrieren. Die Lizenzierung erfolgt unter der NVIDIA Open Model License.

Die Bereitstellung solcher Ressourcen im Open-Source-Bereich kann die Innovation beschleunigen und zur Weiterentwicklung des gesamten KI-Ökosystems beitragen. Es erlaubt unabhängige Überprüfungen der beanspruchten Leistungen und fördert die Adaption in verschiedenen Branchen.

Einordnung im Kontext der KI-Entwicklung

Die Veröffentlichung von Nemotron-Cascade 2 reiht sich in eine Reihe von Bemühungen ein, die Fähigkeiten von LLMs im Bereich des fortgeschrittenen Denkens und der Problemlösung zu erweitern. Insbesondere die Fokussierung auf Mathematik- und Informatik-Olympiaden als Benchmark-Ziele unterstreicht den Anspruch, Modelle zu entwickeln, die über reine Sprachgenerierung hinausgehen und tiefgreifende logische und algorithmische Fähigkeiten besitzen.

Der Wettbewerb in diesem Segment ist intensiv, mit Modellen wie OpenAI's o1, DeepSeek-R1 und Googles Gemini-Serie, die ebenfalls auf hohe Denkfähigkeiten abzielen. NVIDIAs Ansatz, dies mit einem MoE-Modell zu erreichen, das eine hohe "Intelligenzdichte" bei vergleichsweise wenigen aktivierten Parametern bietet, könnte einen wichtigen Weg für die zukünftige Entwicklung von effizienten, aber leistungsstarken KI-Modellen aufzeigen.

Fazit und Ausblick

Nemotron-Cascade 2-30B-A3B stellt eine bemerkenswerte Entwicklung im Bereich der grossen Sprachmodelle dar. Die Kombination aus einer Mixture-of-Experts-Architektur, fortschrittlichem Reinforcement Learning und einer starken Leistung in anspruchsvollen Benchmarks wie der IMO und IOI positioniert das Modell als einen wichtigen Beitrag zur KI-Landschaft. Die Open-Source-Veröffentlichung und die angepriesene Effizienz für den Einsatz auf Consumer-Hardware könnten die breite Akzeptanz und Weiterentwicklung in der B2B-Welt fördern.

Für Unternehmen, die an der Integration von hochleistungsfähigen KI-Lösungen für komplexe Denk- und Agentenaufgaben interessiert sind, bietet Nemotron-Cascade 2 eine potenziell attraktive Option. Die unabhängige Verifizierung der Leistungsansprüche durch die breitere Community wird entscheidend sein, um das volle Potenzial dieses Modells zu bewerten und seine Rolle in der zukünftigen KI-Entwicklung zu bestimmen.

Bibliographie

- NVIDIA. (n.d.). nvidia/Nemotron-Cascade-2-30B-A3B. Hugging Face. Retrieved from https://huggingface.co/nvidia/Nemotron-Cascade-2-30B-A3B - gentic.news. (2026, March 20). NVIDIA Releases Nemotron-Cascade 2: A 30B MoE Model with 3B Active Parameters. Retrieved from https://gentic.news/article/nvidia-releases-nemotron-cascade-2-a-30b-moe-model-with-3b-active-parameters - NVIDIA Research. (n.d.). Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation. Retrieved from https://research.nvidia.com/labs/nemotron/nemotron-cascade-2/ - NVIDIA. (n.d.). Nemotron-Cascade 2 - a nvidia Collection. Hugging Face. Retrieved from https://huggingface.co/collections/nvidia/nemotron-cascade-2 - NVIDIA. (n.d.). nvidia models. Hugging Face. Retrieved from https://huggingface.co/nvidia/models - Efficienist. (2026, March 20). NVIDIA releases Nemotron-Cascade 2 to rival Chinese open-source models. Retrieved from https://efficienist.com/nvidia-releases-nemotron-cascade-2-to-rival-chinese-open-source-models/ - NVIDIA Research. (n.d.). Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models. Retrieved from https://research.nvidia.com/labs/nemotron/nemotron-cascade/ - NVIDIA. (n.d.). nvidia/Nemotron-Cascade-8B-Intermediate-ckpts. Hugging Face. Retrieved from https://huggingface.co/nvidia/Nemotron-Cascade-8B-Intermediate-ckpts - NVIDIA. (n.d.). nvidia/Nemotron-Cascade-8B. Hugging Face. Retrieved from https://huggingface.co/nvidia/Nemotron-Cascade-8B - Yang, Z., Liu, Z., Chen, Y., Dai, W., Wang, B., Lin, S.-C., Lee, C., Chen, Y., Jiang, D., He, J., Pi, R., Lam, G., Lee, N., Bukharin, A., Shoeybi, M., Catanzaro, B., & Ping, W. (2025, December 25). Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning. arXiv. Retrieved from https://arxiv.org/pdf/2512.20848