Neue Sprachmodelle von NVIDIA: Nemotron-Labs Diffusion und ihre Leistungsmerkmale

Kategorien:

No items found.

Freigegeben:

May 24, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

NVIDIA hat mit Nemotron-Labs Diffusion eine neue Familie von Sprachmodellen vorgestellt, die auf drei Generierungsmodi basiert: Autoregressiv, Diffusion und Selbstspekulation.
Diese Modelle ermöglichen eine deutlich höhere Textgenerierungsgeschwindigkeit, insbesondere im Selbstspekulationsmodus, der bis zu 6-mal mehr Tokens pro Forward-Pass als herkömmliche AR-Modelle erreicht.
Die Nemotron-Labs Diffusion Modelle sind in verschiedenen Größen (3B, 8B, 14B Parameter) sowie als Vision-Language-Modell (VLM) verfügbar.
Die Architektur bietet Entwicklern die Flexibilität, den besten Modus basierend auf den Anforderungen an Geschwindigkeit, Genauigkeit und Batch-Größe zu wählen, ohne die Anwendungsebene wesentlich anpassen zu müssen.
Die Modelle wurden mit einem kombinierten AR- und Diffusions-Trainingsziel auf 1,3 Billionen Tokens vortrainiert und zusätzlich mit 45 Milliarden Tokens feinabgestimmt.

Die Entwicklung im Bereich der Künstlichen Intelligenz schreitet in rasantem Tempo voran. Insbesondere große Sprachmodelle (LLMs) haben sich als zentrale Schnittstelle für eine Vielzahl von Anwendungen etabliert, darunter Code-Generierung, mathematische Problemlösung, Zusammenfassungen und Dokumentenverständnis. Traditionell basieren viele dieser Modelle auf einem autoregressiven Ansatz, bei dem Text Token für Token generiert wird, wobei jedes neue Token von den zuvor generierten abhängt. Dieser sequentielle Prozess, obwohl erfolgreich und stabil im Training, kann in Bezug auf die Inferenzgeschwindigkeit und die Nutzung moderner GPU-Ressourcen an Grenzen stoßen.

Revolution der Textgenerierung: Nemotron-Labs Diffusion

NVIDIA hat nun mit den Nemotron-Labs Diffusion Sprachmodellen eine alternative Methode zur Textgenerierung vorgestellt. Diese Modelle nutzen einen Diffusionsansatz, der die gleichzeitige Generierung und iterative Verfeinerung mehrerer Tokens ermöglicht. Dieser Paradigmenwechsel verspricht nicht nur eine effizientere Nutzung der GPU-Kapazitäten, sondern auch die Fähigkeit, bereits generierte Tokens zu überarbeiten, was für Anwendungen wie Textrevisionen oder das Ausfüllen von Lücken von Bedeutung sein kann. Durch die Anpassung der Verfeinerungsschritte lässt sich zudem das Inferenzbudget steuern.

Drei Modi in einem Modell vereint

Ein Kernmerkmal der Nemotron-Labs Diffusion Modelle ist ihre Fähigkeit, drei verschiedene Generierungsmodi in einer einzigen Modellarchitektur zu vereinen:

Autoregressiver Modus: Dieser Modus funktioniert analog zu herkömmlichen LLMs, die Text von links nach rechts generieren. Er gewährleistet die Kompatibilität mit bestehenden Generierungsworkflows.
Diffusionsmodus: Hierbei wird Text blockweise generiert und über mehrere Schritte iterativ verfeinert. Dieser Ansatz ermöglicht eine höhere Parallelität bei der Token-Generierung.
Selbstspekulationsmodus: Dieser Modus kombiniert die Vorteile beider Ansätze. Die Diffusion wird genutzt, um mehrere Kandidaten-Tokens vorzuschlagen, die anschließend durch autoregressive Dekodierung verifiziert werden. Dies soll das Geschwindigkeitspotenzial der Diffusionsgenerierung mit der Zuverlässigkeit der AR-Verifizierung verbinden.

Diese Flexibilität ermöglicht es Entwicklern, den optimalen Inferenzmodus je nach Anwendungsfall und den spezifischen Anforderungen an Geschwindigkeit und Genauigkeit auszuwählen. Der Wechsel zwischen den Modi erfordert dabei minimale Anpassungen auf Anwendungsebene, da es sich um eine Einstellung zur Bereitstellungszeit handelt.

Leistungsmerkmale und Effizienzsteigerungen

Die Nemotron-Labs Diffusion Modelle zeigen laut NVIDIA signifikante Leistungsverbesserungen. Das Nemotron-Labs Diffusion 8B Modell erreicht beispielsweise eine um 1,2 % höhere durchschnittliche Genauigkeit im Vergleich zu Qwen3 8B. Insbesondere die Inferenzgeschwindigkeit, gemessen in Tokens pro Forward-Pass (TPF), zeigt deutliche Steigerungen:

Der Diffusionsmodus erreicht eine 2,6-fach höhere TPF-Rate als AR-Modelle.
Der Selbstspekulationsmodus steigert dies auf das 6-fache für lineare Selbstspekulation und das 6,4-fache für quadratische Selbstspekulation, bei vergleichbarer Genauigkeit auf den getesteten Aufgaben.

Diese Leistungssteigerungen wurden auf verschiedenen Hardware-Plattformen beobachtet. Auf einer DGX Spark (8B, Concurrency 1) war das Modell 2,7-mal schneller als AR-Generierung und erreichte 112 Tokens/Sekunde. Auf einer GB200 (8B, Concurrency 1) wurden 850 Tokens/Sekunde erreicht, was einer 3,3-fachen Beschleunigung gegenüber AR entspricht. Mit maßgeschneiderten CUDA-Kernels konnte dieser Wert auf 1015 Tokens/Sekunde (4-fach) gesteigert werden.

Trainingsansatz und Modellvarianten

Die Entwicklung der Nemotron-Labs Diffusion Modelle basiert auf einem kombinierten AR- und Diffusions-Trainingsziel. Die Modelle wurden auf 1,3 Billionen Tokens vortrainiert, um eine solide Grundlage für Genauigkeit und Geschwindigkeit zu schaffen. Eine zusätzliche überwachte Feinabstimmung erfolgte mit 45 Milliarden Tokens. Die Modellfamilie umfasst Textmodelle mit 3 Milliarden, 8 Milliarden und 14 Milliarden Parametern sowie ein 8B Vision-Language-Modell (VLM). Alle Modelle sind unter der NVIDIA Nemotron Open Model License oder der NVIDIA Source Code License verfügbar, was eine breite Forschung und kommerzielle Nutzung ermöglicht. NVIDIA stellt zudem den Code für das Training dieser Modelle über das NVIDIA Megatron Bridge Framework bereit.

Einsatzmöglichkeiten und zukünftige Perspektiven

Die Nemotron-Labs Diffusion Modelle bieten Entwicklern eine flexible Lösung, um die Textgenerierung an unterschiedliche Anforderungen anzupassen. Ob es um latenzsensitive Anwendungen mit geringer Parallelität oder um Szenarien mit hohem Durchsatz geht, die verschiedenen Modi ermöglichen eine Optimierung der Leistung. Die Fähigkeit, Tokens zu überarbeiten, eröffnet zudem neue Möglichkeiten für interaktive KI-Anwendungen, bei denen die Qualität der generierten Ausgabe im Vordergrund steht.

Die Integration in bestehende Serving-Frameworks wie SGLang wird ebenfalls unterstützt, was die Bereitstellung und Skalierung der Modelle erleichtern soll. Die Forschung und Entwicklung in diesem Bereich zielt darauf ab, die Grenzen der Textgenerierung weiter zu verschieben und KI-Modelle noch effizienter und vielseitiger zu gestalten. Die Nemotron-Labs Diffusion Modelle stellen hierbei einen Schritt dar, der die Geschwindigkeit und Flexibilität der Textgenerierung in den Vordergrund rückt.

Bibliografie

- Fu, Y., Whalen, L., Garg, A., Wu, C., Khadkevich, M., Oswald, N., ... & Molchanov, P. (2026). Nemotron-Labs-Diffusion: A Tri-Mode Language Model Unifying Autoregressive, Diffusion, and Self-Speculation Decoding. NVIDIA Technical Report. - NVIDIA. (n.d.). nvidia/Nemotron-Labs-Diffusion-14B-Base. Hugging Face. Abgerufen von https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-14B-Base - NVIDIA. (n.d.). nvidia/Nemotron-Labs-Diffusion-8B. Hugging Face. Abgerufen von https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-8B - NVIDIA. (n.d.). nvidia/Nemotron-Labs-Diffusion-3B. Hugging Face. Abgerufen von https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-3B - NVIDIA. (n.d.). nvidia/Nemotron-Labs-Diffusion-VLM-8B. Hugging Face. Abgerufen von https://huggingface.co/nvidia/Nemotron-Labs-Diffusion-VLM-8B - GetAI Business. (2026, 23. Mai). Towards Speed-of-Light Text Generation with Nemotron-Labs Diffusion Language Models. Abgerufen von https://getai.business/en/news/towards-speed-of-light-text-generation-with-nemotr - BytePointer. (2026, 20. Mai). NVIDIA AI Releases Nemotron-Labs-Diffusion: A Tri-Mode Language Model with 6× Tokens Per Forward Over Qwen3-8B. Abgerufen von https://bytepointer.com/nvidia-ai-releases-nemotron-labs-diffusion-a-tri-mode-language-model-with-6x-tokens-per-forward-over-qwen3-8b/ - AI Lab itinai.com. (2026, 20. Mai). NVIDIA Nemotron-Labs-Diffusion Boosts Token Rate 6× Over Qwen3-8B. Abgerufen von https://itinai.com/nvidia-nemotron-labs-diffusion-boosts-token-rate-6x-over-qwen3-8b/ - At Omni. (2026, 21. Mai). NVIDIA AI Releases Nemotron-Labs-Diffusion: A Tri-Mode Language Model with 6× Tokens Per Forward Over Qwen3-8B. Abgerufen von https://www.atomni.in/article/nvidia-ai-releases-nemotron-labs-diffusion-a-tri-mode-language-model-with-6-to - Startup Fortune. (2026, 19. Mai). NVIDIA pushes past autoregressive text generation with Nemotron-Labs-Diffusion. Abgerufen von https://startupfortune.com/nvidia-pushes-past-autoregressive-text-generation-with-nemotron-labs-diffusion/