Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die stetig wachsende Komplexität und der Leistungsbedarf von großen Sprachmodellen (LLMs) stellen hohe Anforderungen an die zugrunde liegende Hardware und Software. Insbesondere die Inferenzphase, also die Generierung von Text durch ein trainiertes Modell, ist oft durch sequentielle Abläufe limitiert. NVIDIA adressiert diese Herausforderung mit der Einführung von DFlash, einem innovativen Ansatz, der die Geschwindigkeit autoregressiver LLMs durch eine Block-Diffusions-Methode erheblich steigert. Dieser Artikel beleuchtet die Funktionsweise, die technologischen Grundlagen und die praktischen Auswirkungen von DFlash auf die Effizienz der LLM-Inferenz.
Autoregressive LLMs erzeugen Text Token für Token. Jedes neue Token baut auf dem vorhergehenden auf, was einen inhärent sequenziellen Prozess darstellt. Diese Abfolge führt zu einer suboptimalen Auslastung der Grafikprozessoren (GPUs) und erhöht die Inferenzlatenz. Besonders in Szenarien, die eine geringe Latenz erfordern, wie etwa bei interaktiven Anwendungen oder Multi-Agenten-Systemen, können diese Einschränkungen die Leistungsfähigkeit erheblich beeinträchtigen. Die Kosten für die Inferenz steigen mit der Länge der generierten Ausgaben, da die Latenz einen dominierenden Faktor darstellt.
Das sogenannte "Speculative Decoding" (spekulative Dekodierung) ist eine etablierte Methode, um diesen Engpass zu mildern. Dabei wird ein kleineres, schnelleres "Draft-Modell" eingesetzt, das vorläufige Token-Sequenzen vorschlägt. Diese Vorschläge werden dann parallel vom größeren "Target-Modell" überprüft. Akzeptierte Token werden übernommen, wodurch die Qualität der Ausgabe erhalten bleibt. Bestehende Methoden, einschließlich fortschrittlicher Ansätze wie EAGLE-3, basieren jedoch weiterhin auf autoregressiven Draft-Modellen. Dies bedeutet, dass auch die Entwurfsphase sequenziell abläuft, was die praktischen Beschleunigungen auf das Zwei- bis Dreifache begrenzt.
DFlash, ein quelloffenes und leichtgewichtiges Block-Diffusions-Modell, ersetzt das autoregressive Draft-Modell vollständig. Anstatt Token einzeln zu erzeugen, prognostiziert der DFlash-Drafter in einem einzigen Vorwärtsdurchlauf einen gesamten Block maskierter zukünftiger Token. Dieser Ansatz transformiert die sequenzielle Token-Generierung in eine block-parallele GPU-Berechnung. Die Validierung durch das Target-Modell stellt dabei die Qualität der Ausgabe sicher.
Die interne Architektur von DFlash basiert auf drei zentralen technischen Mechanismen:
Der Mechanismus der Key-Value-Injektion ist entscheidend für die Aufrechterhaltung hoher Akzeptanzraten während der Verifizierungsphase. Da das Target-Modell ausschließlich den finalen Validierungsschritt durchführt, wird die exakte Ausgabeverteilung des primären Modells beibehalten, während die gesamte Generierungssequenz beschleunigt wird.
Tests auf einem NVIDIA DGX B300 System mit dem gpt-oss-120b Modell und TensorRT-LLM demonstrieren die Praxistauglichkeit von DFlash. Im Vergleich zu standardmäßiger autoregressiver Dekodierung und dem EAGLE-3-Ansatz liefert DFlash bei der Verwendung des SPEED-Bench Coding-Datensatzes einen deutlich höheren Durchsatz bei produktionsrelevanten Latenzzielen.
Auf der NVIDIA Blackwell-Architektur erzielt DFlash bei hohen Interaktivitätsbereichen von 500-600 Token pro Sekunde pro Benutzer eine mehr als 15-fache Steigerung des Durchsatzes im Vergleich zur autoregressiven Dekodierung. Dies entspricht einer 1,5-fach höheren Durchsatzrate als beim EAGLE-3 Speculative Decoding. Selbst beim niedrigsten Konkurrenzpunkt mit einer Batch-Größe von eins verdoppelt das DFlash-Modell die Interaktivität auf Blackwell-Hardware.
Die NVIDIA Blackwell Ultra GPU-Architektur unterstützt dieses parallelisierte Ausführungsmodell optimal. Jede Blackwell Ultra GPU verfügt über zwei Die, die durch 10 Tbit/s High-Bandwidth Chip-to-Chip Interconnect verbunden sind. Diese Hardwarekonfiguration bildet einen einheitlichen Compute-Bereich mit 160 Streaming-Multiprozessoren und 640 Tensor Cores der fünften Generation. DFlash nutzt die 15 Petaflops an dichter NVFP4-Rechenleistung von Blackwell, wodurch das System bis zu 15-mal mehr Nutzer gleichzeitig bei identischen Interaktivitätsraten bedienen kann. Auch bei kleineren Modellen zeigen sich Leistungssteigerungen: DFlash verdoppelt nahezu die Interaktivität von EAGLE-3 auf Llama 3.1 8B bei der Verarbeitung des Speed-Bench multilingualen Datensatzes.
DFlash übertrifft EAGLE-3 konsistent, wenn die Interaktivitätsbeschleunigung bei angepassten Benutzerkonkurrenzniveaus gemessen wird. Bei der Verarbeitung des gpt-oss-120b Modells erreicht DFlash eine 2,6-fache Beschleunigung bei Kodierungsaufgaben im Vergleich zu EAGLE-3s 1,8-facher Beschleunigung. Bei Retrieval-Augmented Generation (RAG) Workloads erzielt DFlash eine 2,3-fache Beschleunigung gegenüber 1,7-fach für EAGLE-3. Multilinguale Verarbeitung zeigt eine 2,6-fache Verbesserung mit DFlash, im Gegensatz zu den 1,8-fach von EAGLE-3.
Diese Ergebnisse führen zu einer durchschnittlichen Beschleunigung von 2,3-fach über die getesteten Datensätze für DFlash auf dem 120-Milliarden-Parameter-Modell, die sich konsistent über Reasoning-, Schreib- und Zusammenfassungsaufgaben skaliert.
Das kleinere Llama 3.1 8B Instruct Modell zeigt ähnliche Leistungsskalierungseigenschaften unter vergleichenden Tests. Kodierungsaufgaben werden mit einer 3,0-fachen Beschleunigung unter Verwendung von DFlash verarbeitet, während EAGLE-3 2,3-fach erreicht. Retrieval-Augmented Generation erreicht eine 3,1-fache Beschleunigung mit DFlash. Die durchschnittliche Beschleunigung über alle getesteten Datensätze für das Acht-Milliarden-Parameter-Modell erreicht 2,8-fach mit DFlash, verglichen mit 2,2-fach für EAGLE-3.
Das Forschungsteam hat 20 DFlash-Modell-Checkpoints auf Hugging Face veröffentlicht, die Rezepte für NVIDIA Blackwell- und Hopper-GPUs bereitstellen. Diese decken mehrere wichtige Modellfamilien ab, darunter Qwen, Kimi K2.6, Llama, Gemma und gpt-oss.
Ingenieure, die vLLM-Umgebungen verwalten, können EAGLE-3 durch ein DFlash-Checkpoint über ein einfaches Konfigurationsupdate ersetzen. Die Integration erfolgt über die Open-Source-Bibliothek Speculators, die den DFlash-Drafter mit den Hidden States des Target-Modells innerhalb des vLLM-Inferenzpfads auf NVIDIA GPUs verbindet.
Benchmarking von Gemma 4 31B auf einer einzelnen Blackwell Ultra GPU unter Verwendung von vLLM zeigt bis zu 5,8-mal höheren Durchsatz bei gleicher Konkurrenz im Vergleich zur standardmäßigen autoregressiven Dekodierung. Diese vLLM-Konfiguration führt zu einer 5,8-fachen Durchsatzsteigerung auf dem Math500-Datensatz. HumanEval-Aufgaben verzeichnen eine 5,6-fache Verbesserung, und GSM8K-Benchmarks erzielen einen 5,3-fachen Gewinn.
Die Migration von EAGLE in SGLang-Implementierungen erfordert die Aktualisierung des spekulativen Dekodierungsalgorithmus auf DFlash und die Bereitstellung des entsprechenden DFlash-Draft-Modell-Checkpoints.
Die Evaluierung von Qwen3 8-B auf SGLang unter Verwendung einer einzelnen NVIDIA B200 GPU liefert bis zu 5,1-fache Durchsatzverbesserungen bei gleicher Konkurrenz im Vergleich zur autoregressiven Dekodierung. Die SGLang-Integration führt zu einer 5,1-fachen Durchsatzsteigerung für Math500-Aufgaben und einem 4,2-fachen Gewinn für HumanEval-Aufgaben im Vergleich zur standardmäßigen autoregressiven Verarbeitung.
DFlash stellt einen bedeutenden Fortschritt in der Optimierung der Inferenzgeschwindigkeit von LLMs dar. Durch die Umstellung von sequenzieller auf parallele Token-Generierung mittels Block-Diffusion und die geschickte Integration in bestehende Ökosysteme ermöglicht NVIDIA eine deutliche Steigerung der Effizienz und Interaktivität von KI-Anwendungen. Diese Technologie ist besonders relevant für B2B-Anwendungen, bei denen hohe Durchsätze und geringe Latenzzeiten entscheidend sind. Die offene Verfügbarkeit der Modell-Checkpoints und die breite Unterstützung in verschiedenen Frameworks unterstreichen das Potenzial von DFlash, die Entwicklung und den Einsatz von LLMs nachhaltig zu beeinflussen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen