Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
NVIDIA hat mit der Veröffentlichung von Nemotron-Cascade 2-30B-A3B auf Hugging Face eine neue Entwicklung im Bereich der grossen Sprachmodelle (LLMs) vorgestellt. Dieses Modell, das als Mixture-of-Experts (MoE) konzipiert ist, verfügt über insgesamt 30 Milliarden Parameter, wobei während der Inferenz lediglich etwa 3 Milliarden Parameter aktiv sind. Dies deutet auf einen Fokus auf Effizienz bei gleichzeitig hohen Leistungsansprüchen hin.
Nemotron-Cascade 2-30B-A3B basiert auf einer Mixture-of-Experts (MoE)-Architektur. Diese Technologie ermöglicht es, Modelle mit einer sehr grossen Gesamtparameterzahl zu entwickeln, während der Rechenaufwand während der Inferenz durch die Aktivierung einer kleineren Teilmenge dieser Parameter pro Token reduziert wird. Im Falle von Nemotron-Cascade 2 bedeutet dies eine Aktivierungsrate von etwa 10% der Gesamtparameter (3 Milliarden von 30 Milliarden).
Die Entwicklung des Modells erfolgte durch ein sogenanntes Post-Training, das auf Nemotron-3-Nano-30B-A3B-Base aufbaut. Dabei kamen fortschrittliche Methoden wie kaskadiertes Reinforcement Learning (Cascade RL) und Multi-Domain On-Policy Distillation zum Einsatz. Diese Techniken zielen darauf ab, die Denk- und Agentenfunktionen des Modells zu verbessern und gleichzeitig eine hohe Leistung über verschiedene Domänen hinweg zu gewährleisten.
Das Modell ist in der Lage, sowohl in einem "Denkmodus" als auch in einem "Instruktionsmodus" (nicht-schlussfolgernd) zu operieren. Der Denkmodus ist für komplexe Aufgaben vorgesehen, während der Instruktionsmodus direkte Anweisungen verarbeitet. NVIDIA hat zudem einen Mechanismus implementiert, der in mehrstufigen Konversationen die Kontextlänge reduziert, indem bei vorherigen Denkmodus-Eingaben nur die finale Zusammenfassung der Modellausgabe in den Konversationsverlauf aufgenommen wird.
NVIDIA beansprucht, dass Nemotron-Cascade 2-30B-A3B eine "Goldmedaillen"-Leistung bei den Internationalen Mathematik-Olympiaden (IMO) und den Internationalen Informatik-Olympiaden (IOI) des Jahres 2025 erzielt. Diese Wettbewerbe gelten als anspruchsvolle Massstäbe für fortgeschrittene mathematische und algorithmische Problemlösungsfähigkeiten. Ein Mitautor des Papers, selbst IMO-Goldmedaillengewinner von 2015, hat die vom Modell generierten Lösungen geprüft und bewertet, um dieses Ergebnis zu verifizieren.
In den veröffentlichten Benchmark-Ergebnissen werden folgende Werte hervorgehoben:
Diese Ergebnisse positionieren Nemotron-Cascade 2 als leistungsstarkes Modell im Bereich des mathematischen und kodierungsbezogenen Denkens. Es wird berichtet, dass es selbst grössere Modelle wie Qwen3.5-35B-A3B und Nemotron-3-Super-120B-A12B in Schlüsselbereichen übertrifft.
Ein wesentlicher Aspekt des Nemotron-Cascade 2 ist die angestrebte Effizienz. Durch die MoE-Architektur und die geringe Anzahl aktivierter Parameter (3 Milliarden) soll das Modell auch auf gängiger Consumer-Hardware betrieben werden können. Bei einer 4-Bit-Quantisierung könnte es beispielsweise auf einer einzelnen 24-GB-Grafikkarte wie der RTX 4090 oder RTX 5090 laufen. Eine aggressivere 2- oder 3-Bit-Quantisierung würde den VRAM-Bedarf weiter auf 16 GB reduzieren, allerdings mit potenziell geringfügigen Qualitätseinbussen.
Diese Eigenschaft könnte die Zugänglichkeit fortgeschrittener KI-Modelle für eine breitere Nutzerbasis erhöhen und die Entwicklung und den Einsatz von KI-Anwendungen dezentralisieren. Für Unternehmen B2B-Bereich bedeutet dies möglicherweise eine kosteneffizientere Möglichkeit, hochleistungsfähige Sprachmodelle für spezialisierte Anwendungsfälle wie Code-Generierung, mathematische Problemlösung oder komplexe Argumentationsaufgaben zu nutzen, ohne auf teure Rechenzentrumsressourcen angewiesen zu sein.
NVIDIA hat Nemotron-Cascade 2-30B-A3B als Open-Weight-Modell auf Hugging Face veröffentlicht. Dies beinhaltet nicht nur die Modellgewichte, sondern auch die Trainingsdaten und einen detaillierten technischen Bericht. Dieser Ansatz fördert die Transparenz und ermöglicht der Forschungsgemeinschaft sowie Entwicklern, das Modell unabhängig zu bewerten, zu modifizieren und in eigene Projekte zu integrieren. Die Lizenzierung erfolgt unter der NVIDIA Open Model License.
Die Bereitstellung solcher Ressourcen im Open-Source-Bereich kann die Innovation beschleunigen und zur Weiterentwicklung des gesamten KI-Ökosystems beitragen. Es erlaubt unabhängige Überprüfungen der beanspruchten Leistungen und fördert die Adaption in verschiedenen Branchen.
Die Veröffentlichung von Nemotron-Cascade 2 reiht sich in eine Reihe von Bemühungen ein, die Fähigkeiten von LLMs im Bereich des fortgeschrittenen Denkens und der Problemlösung zu erweitern. Insbesondere die Fokussierung auf Mathematik- und Informatik-Olympiaden als Benchmark-Ziele unterstreicht den Anspruch, Modelle zu entwickeln, die über reine Sprachgenerierung hinausgehen und tiefgreifende logische und algorithmische Fähigkeiten besitzen.
Der Wettbewerb in diesem Segment ist intensiv, mit Modellen wie OpenAI's o1, DeepSeek-R1 und Googles Gemini-Serie, die ebenfalls auf hohe Denkfähigkeiten abzielen. NVIDIAs Ansatz, dies mit einem MoE-Modell zu erreichen, das eine hohe "Intelligenzdichte" bei vergleichsweise wenigen aktivierten Parametern bietet, könnte einen wichtigen Weg für die zukünftige Entwicklung von effizienten, aber leistungsstarken KI-Modellen aufzeigen.
Nemotron-Cascade 2-30B-A3B stellt eine bemerkenswerte Entwicklung im Bereich der grossen Sprachmodelle dar. Die Kombination aus einer Mixture-of-Experts-Architektur, fortschrittlichem Reinforcement Learning und einer starken Leistung in anspruchsvollen Benchmarks wie der IMO und IOI positioniert das Modell als einen wichtigen Beitrag zur KI-Landschaft. Die Open-Source-Veröffentlichung und die angepriesene Effizienz für den Einsatz auf Consumer-Hardware könnten die breite Akzeptanz und Weiterentwicklung in der B2B-Welt fördern.
Für Unternehmen, die an der Integration von hochleistungsfähigen KI-Lösungen für komplexe Denk- und Agentenaufgaben interessiert sind, bietet Nemotron-Cascade 2 eine potenziell attraktive Option. Die unabhängige Verifizierung der Leistungsansprüche durch die breitere Community wird entscheidend sein, um das volle Potenzial dieses Modells zu bewerten und seine Rolle in der zukünftigen KI-Entwicklung zu bestimmen.
- NVIDIA. (n.d.). nvidia/Nemotron-Cascade-2-30B-A3B. Hugging Face. Retrieved from https://huggingface.co/nvidia/Nemotron-Cascade-2-30B-A3B - gentic.news. (2026, March 20). NVIDIA Releases Nemotron-Cascade 2: A 30B MoE Model with 3B Active Parameters. Retrieved from https://gentic.news/article/nvidia-releases-nemotron-cascade-2-a-30b-moe-model-with-3b-active-parameters - NVIDIA Research. (n.d.). Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation. Retrieved from https://research.nvidia.com/labs/nemotron/nemotron-cascade-2/ - NVIDIA. (n.d.). Nemotron-Cascade 2 - a nvidia Collection. Hugging Face. Retrieved from https://huggingface.co/collections/nvidia/nemotron-cascade-2 - NVIDIA. (n.d.). nvidia models. Hugging Face. Retrieved from https://huggingface.co/nvidia/models - Efficienist. (2026, March 20). NVIDIA releases Nemotron-Cascade 2 to rival Chinese open-source models. Retrieved from https://efficienist.com/nvidia-releases-nemotron-cascade-2-to-rival-chinese-open-source-models/ - NVIDIA Research. (n.d.). Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models. Retrieved from https://research.nvidia.com/labs/nemotron/nemotron-cascade/ - NVIDIA. (n.d.). nvidia/Nemotron-Cascade-8B-Intermediate-ckpts. Hugging Face. Retrieved from https://huggingface.co/nvidia/Nemotron-Cascade-8B-Intermediate-ckpts - NVIDIA. (n.d.). nvidia/Nemotron-Cascade-8B. Hugging Face. Retrieved from https://huggingface.co/nvidia/Nemotron-Cascade-8B - Yang, Z., Liu, Z., Chen, Y., Dai, W., Wang, B., Lin, S.-C., Lee, C., Chen, Y., Jiang, D., He, J., Pi, R., Lam, G., Lee, N., Bukharin, A., Shoeybi, M., Catanzaro, B., & Ping, W. (2025, December 25). Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning. arXiv. Retrieved from https://arxiv.org/pdf/2512.20848
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen