DFlash von NVIDIA: Neuer Ansatz zur Beschleunigung der Inferenzgeschwindigkeit von Sprachmodellen

Kategorien:

No items found.

Freigegeben:

June 25, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

DFlash ist ein von NVIDIA entwickeltes Verfahren, das die Inferenzgeschwindigkeit von großen Sprachmodellen (LLMs) deutlich erhöht.
Es nutzt eine Block-Diffusions-Methode für das speculative Decoding, um ganze Token-Blöcke parallel zu generieren.
Im Vergleich zu herkömmlichen autoregressiven Methoden und dem EAGLE-3-Ansatz erzielt DFlash bis zu 15-mal höhere Durchsätze bei der Token-Generierung auf NVIDIA Blackwell-Architekturen.
Die Technologie ist in gängige LLM-Frameworks wie vLLM, SGLang und TensorRT-LLM integrierbar und unterstützt eine Vielzahl von Modellen.
DFlash trägt dazu bei, die GPU-Auslastung zu optimieren und Latenzzeiten bei interaktiven KI-Anwendungen zu reduzieren.

Die stetig wachsende Komplexität und der Leistungsbedarf von großen Sprachmodellen (LLMs) stellen hohe Anforderungen an die zugrunde liegende Hardware und Software. Insbesondere die Inferenzphase, also die Generierung von Text durch ein trainiertes Modell, ist oft durch sequentielle Abläufe limitiert. NVIDIA adressiert diese Herausforderung mit der Einführung von DFlash, einem innovativen Ansatz, der die Geschwindigkeit autoregressiver LLMs durch eine Block-Diffusions-Methode erheblich steigert. Dieser Artikel beleuchtet die Funktionsweise, die technologischen Grundlagen und die praktischen Auswirkungen von DFlash auf die Effizienz der LLM-Inferenz.

Die Herausforderung der sequenziellen Token-Generierung

Autoregressive LLMs erzeugen Text Token für Token. Jedes neue Token baut auf dem vorhergehenden auf, was einen inhärent sequenziellen Prozess darstellt. Diese Abfolge führt zu einer suboptimalen Auslastung der Grafikprozessoren (GPUs) und erhöht die Inferenzlatenz. Besonders in Szenarien, die eine geringe Latenz erfordern, wie etwa bei interaktiven Anwendungen oder Multi-Agenten-Systemen, können diese Einschränkungen die Leistungsfähigkeit erheblich beeinträchtigen. Die Kosten für die Inferenz steigen mit der Länge der generierten Ausgaben, da die Latenz einen dominierenden Faktor darstellt.

Speculative Decoding als Lösungsansatz

Das sogenannte "Speculative Decoding" (spekulative Dekodierung) ist eine etablierte Methode, um diesen Engpass zu mildern. Dabei wird ein kleineres, schnelleres "Draft-Modell" eingesetzt, das vorläufige Token-Sequenzen vorschlägt. Diese Vorschläge werden dann parallel vom größeren "Target-Modell" überprüft. Akzeptierte Token werden übernommen, wodurch die Qualität der Ausgabe erhalten bleibt. Bestehende Methoden, einschließlich fortschrittlicher Ansätze wie EAGLE-3, basieren jedoch weiterhin auf autoregressiven Draft-Modellen. Dies bedeutet, dass auch die Entwurfsphase sequenziell abläuft, was die praktischen Beschleunigungen auf das Zwei- bis Dreifache begrenzt.

DFlash: Eine neue Ära des Speculative Decoding

DFlash, ein quelloffenes und leichtgewichtiges Block-Diffusions-Modell, ersetzt das autoregressive Draft-Modell vollständig. Anstatt Token einzeln zu erzeugen, prognostiziert der DFlash-Drafter in einem einzigen Vorwärtsdurchlauf einen gesamten Block maskierter zukünftiger Token. Dieser Ansatz transformiert die sequenzielle Token-Generierung in eine block-parallele GPU-Berechnung. Die Validierung durch das Target-Modell stellt dabei die Qualität der Ausgabe sicher.

Architektur und Funktionsweise

Die interne Architektur von DFlash basiert auf drei zentralen technischen Mechanismen:

Block-Diffusions-Entwurf: Dieser Mechanismus ermöglicht die parallele Vorhersage mehrerer zukünftiger Token.
Konditionierung durch den Hidden State des Target-Modells: Hierbei werden Kontextmerkmale direkt aus den verborgenen Zuständen des Target-Modells extrahiert.
Key-Value-Injektion: Die extrahierten Kontextmerkmale des Target-Modells werden in die Key-Value-Projektionen des Draft-Modells über dessen operative Schichten hinweg injiziert.

Der Mechanismus der Key-Value-Injektion ist entscheidend für die Aufrechterhaltung hoher Akzeptanzraten während der Verifizierungsphase. Da das Target-Modell ausschließlich den finalen Validierungsschritt durchführt, wird die exakte Ausgabeverteilung des primären Modells beibehalten, während die gesamte Generierungssequenz beschleunigt wird.

Leistungskennzahlen und Benchmarks

Tests auf einem NVIDIA DGX B300 System mit dem gpt-oss-120b Modell und TensorRT-LLM demonstrieren die Praxistauglichkeit von DFlash. Im Vergleich zu standardmäßiger autoregressiver Dekodierung und dem EAGLE-3-Ansatz liefert DFlash bei der Verwendung des SPEED-Bench Coding-Datensatzes einen deutlich höheren Durchsatz bei produktionsrelevanten Latenzzielen.

Signifikante Durchsatzsteigerungen auf NVIDIA Blackwell

Auf der NVIDIA Blackwell-Architektur erzielt DFlash bei hohen Interaktivitätsbereichen von 500-600 Token pro Sekunde pro Benutzer eine mehr als 15-fache Steigerung des Durchsatzes im Vergleich zur autoregressiven Dekodierung. Dies entspricht einer 1,5-fach höheren Durchsatzrate als beim EAGLE-3 Speculative Decoding. Selbst beim niedrigsten Konkurrenzpunkt mit einer Batch-Größe von eins verdoppelt das DFlash-Modell die Interaktivität auf Blackwell-Hardware.

Die NVIDIA Blackwell Ultra GPU-Architektur unterstützt dieses parallelisierte Ausführungsmodell optimal. Jede Blackwell Ultra GPU verfügt über zwei Die, die durch 10 Tbit/s High-Bandwidth Chip-to-Chip Interconnect verbunden sind. Diese Hardwarekonfiguration bildet einen einheitlichen Compute-Bereich mit 160 Streaming-Multiprozessoren und 640 Tensor Cores der fünften Generation. DFlash nutzt die 15 Petaflops an dichter NVFP4-Rechenleistung von Blackwell, wodurch das System bis zu 15-mal mehr Nutzer gleichzeitig bei identischen Interaktivitätsraten bedienen kann. Auch bei kleineren Modellen zeigen sich Leistungssteigerungen: DFlash verdoppelt nahezu die Interaktivität von EAGLE-3 auf Llama 3.1 8B bei der Verarbeitung des Speed-Bench multilingualen Datensatzes.

Vergleichende Leistung über spezialisierte Datensätze

DFlash übertrifft EAGLE-3 konsistent, wenn die Interaktivitätsbeschleunigung bei angepassten Benutzerkonkurrenzniveaus gemessen wird. Bei der Verarbeitung des gpt-oss-120b Modells erreicht DFlash eine 2,6-fache Beschleunigung bei Kodierungsaufgaben im Vergleich zu EAGLE-3s 1,8-facher Beschleunigung. Bei Retrieval-Augmented Generation (RAG) Workloads erzielt DFlash eine 2,3-fache Beschleunigung gegenüber 1,7-fach für EAGLE-3. Multilinguale Verarbeitung zeigt eine 2,6-fache Verbesserung mit DFlash, im Gegensatz zu den 1,8-fach von EAGLE-3.

Diese Ergebnisse führen zu einer durchschnittlichen Beschleunigung von 2,3-fach über die getesteten Datensätze für DFlash auf dem 120-Milliarden-Parameter-Modell, die sich konsistent über Reasoning-, Schreib- und Zusammenfassungsaufgaben skaliert.

Das kleinere Llama 3.1 8B Instruct Modell zeigt ähnliche Leistungsskalierungseigenschaften unter vergleichenden Tests. Kodierungsaufgaben werden mit einer 3,0-fachen Beschleunigung unter Verwendung von DFlash verarbeitet, während EAGLE-3 2,3-fach erreicht. Retrieval-Augmented Generation erreicht eine 3,1-fache Beschleunigung mit DFlash. Die durchschnittliche Beschleunigung über alle getesteten Datensätze für das Acht-Milliarden-Parameter-Modell erreicht 2,8-fach mit DFlash, verglichen mit 2,2-fach für EAGLE-3.

Integration und Verfügbarkeit

Das Forschungsteam hat 20 DFlash-Modell-Checkpoints auf Hugging Face veröffentlicht, die Rezepte für NVIDIA Blackwell- und Hopper-GPUs bereitstellen. Diese decken mehrere wichtige Modellfamilien ab, darunter Qwen, Kimi K2.6, Llama, Gemma und gpt-oss.

Integration in gängige Frameworks

Ingenieure, die vLLM-Umgebungen verwalten, können EAGLE-3 durch ein DFlash-Checkpoint über ein einfaches Konfigurationsupdate ersetzen. Die Integration erfolgt über die Open-Source-Bibliothek Speculators, die den DFlash-Drafter mit den Hidden States des Target-Modells innerhalb des vLLM-Inferenzpfads auf NVIDIA GPUs verbindet.

Benchmarking von Gemma 4 31B auf einer einzelnen Blackwell Ultra GPU unter Verwendung von vLLM zeigt bis zu 5,8-mal höheren Durchsatz bei gleicher Konkurrenz im Vergleich zur standardmäßigen autoregressiven Dekodierung. Diese vLLM-Konfiguration führt zu einer 5,8-fachen Durchsatzsteigerung auf dem Math500-Datensatz. HumanEval-Aufgaben verzeichnen eine 5,6-fache Verbesserung, und GSM8K-Benchmarks erzielen einen 5,3-fachen Gewinn.

Die Migration von EAGLE in SGLang-Implementierungen erfordert die Aktualisierung des spekulativen Dekodierungsalgorithmus auf DFlash und die Bereitstellung des entsprechenden DFlash-Draft-Modell-Checkpoints.

Die Evaluierung von Qwen3 8-B auf SGLang unter Verwendung einer einzelnen NVIDIA B200 GPU liefert bis zu 5,1-fache Durchsatzverbesserungen bei gleicher Konkurrenz im Vergleich zur autoregressiven Dekodierung. Die SGLang-Integration führt zu einer 5,1-fachen Durchsatzsteigerung für Math500-Aufgaben und einem 4,2-fachen Gewinn für HumanEval-Aufgaben im Vergleich zur standardmäßigen autoregressiven Verarbeitung.

Fazit

DFlash stellt einen bedeutenden Fortschritt in der Optimierung der Inferenzgeschwindigkeit von LLMs dar. Durch die Umstellung von sequenzieller auf parallele Token-Generierung mittels Block-Diffusion und die geschickte Integration in bestehende Ökosysteme ermöglicht NVIDIA eine deutliche Steigerung der Effizienz und Interaktivität von KI-Anwendungen. Diese Technologie ist besonders relevant für B2B-Anwendungen, bei denen hohe Durchsätze und geringe Latenzzeiten entscheidend sind. Die offene Verfügbarkeit der Modell-Checkpoints und die breite Unterstützung in verschiedenen Frameworks unterstreichen das Potenzial von DFlash, die Entwicklung und den Einsatz von LLMs nachhaltig zu beeinflussen.

Bibliography

- Chen, J., Liang, Y., & Liu, Z. (2026). DFlash: Block Diffusion for Flash Speculative Decoding. arXiv preprint arXiv:2602.06036. - Daws, R. (2026, June 24). NVIDIA: DFlash block diffusion accelerates autoregressive LLMs. Developer-Tech. Retrieved from https://www.developer-tech.com/news/nvidia-dflash-block-diffusion-accelerates-autoregressive-llms/ - NVIDIA/Model-Optimizer. (n.d.). examples/speculative_decoding/doc/dflash.md at main. GitHub. Retrieved from https://github.com/NVIDIA/Model-Optimizer/blob/main/examples/speculative_decoding/doc/dflash.md - NVIDIA/Model-Optimizer. (2026, April 14). add: DFlash block diffusion speculative decoding (#1211) · 3131195. GitHub. Retrieved from https://github.com/NVIDIA/Model-Optimizer/commit/3131195241401238b8b7f820ce4b09f863572a81 - z-lab/dflash. (n.d.). GitHub. Retrieved from http://github.com/z-lab/dflash