Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Als Senior Specialist Journalist und Analyst für Mindverse's Nachrichtenportal beleuchten wir heute eine aktuelle Entwicklung im Bereich der Künstlichen Intelligenz, die das Potenzial hat, die Effizienz von Sprachmodellen erheblich zu steigern. Eine kürzlich veröffentlichte Forschungsarbeit stellt einen innovativen Ansatz zur Beschleunigung der Textgenerierung in rekurrenten Tiefenmodellen vor. Diese Modelle, auch bekannt als Universal- oder Looped-Transformatoren, zeichnen sich durch ihre Fähigkeit aus, ihre Rechenleistung durch die Wiederholung von Schichten zu erhöhen. Die Fähigkeit, komplexe Nachrichtenlagen präzise und objektiv zu analysieren, ist hierbei von höchster Bedeutung, um Ihnen, unseren anspruchsvollen B2B-Lesern, handlungsorientierte Einblicke zu bieten.
Die Forschung konzentriert sich auf die Verbindung zwischen rekurrenten Tiefenmodellen und Diffusionssprachmodellen. Basierend auf den festgestellten Ähnlichkeiten wurde ein neuer "Diffusion Forcing Sampler" entwickelt, der die Generierung von Text beschleunigt. Dieser Sampler ermöglicht es, bei jedem Vorwärtsdurchlauf des Modells neue Tokens zu dekodieren, während die latenten Zustände dieser Tokens parallel durch Rekurrenz weiter verfeinert werden können. Dies führt zu einer signifikanten Beschleunigung des Generierungsprozesses.
Aus theoretischer Sicht ist die Generierung mit diesem neuen Sampler bei gleichem Zeitbudget auf moderner Hardware ausdrucksstärker als die herkömmliche autoregressive Generierung. Ein bemerkenswertes Ergebnis ist, dass dieser Sampler, der auf Prinzipien der Diffusionsliteratur basiert, direkt auf bestehende 3,5 Milliarden-Parameter-Transformatoren mit rekursiver Tiefe angewendet werden kann, ohne dass eine Feinabstimmung (Tuning) erforderlich ist. Dies führt zu einer Beschleunigung von bis zu fünffacher Geschwindigkeit.
Die Erkenntnisse der Studie bieten somit nicht nur einen effizienten Mechanismus zur Parallelisierung zusätzlicher Berechnungen in rekurrenten Tiefenmodellen während der Inferenz, sondern legen auch nahe, dass solche Modelle als robuste, kontinuierliche, wenn auch kausale, Diffusionssprachmodelle betrachtet werden können.
Herkömmliche große Sprachmodelle (LLMs) sind als neuronale Netze mit fester Tiefe und einer vorgegebenen Anzahl von Schichten konzipiert. Obwohl diese Architekturen effizient trainiert werden können und für viele Aufgaben ausreichend sind, erfordern anspruchsvollere Aufgaben, wie in der Mathematik oder Programmierung, oft mehrere logische Schritte, die für Modelle mit fester Tiefe schwer robust zu erlernen sind. Modelle mit rekursiver Tiefe bieten hier eine Alternative, da sie Schichten wiederholen können und somit in der Lage sind, eine größere Komplexitätsklasse abzubilden.
Allerdings ist die Generierung mit autoregressiven rekurrenten Tiefenmodellen typischerweise langsam, da jede Wiederholung der Modellschichten sequenziell ausgeführt werden muss, bevor das nächste Token erzeugt werden kann.
Die vorliegende Arbeit zeigt auf, wie die Generierung aus rekurrenten Tiefenmodellen effizient parallelisiert werden kann, indem diese Architektur mit Diffusionsmodellarchitekturen verbunden wird. Beide Architekturen weisen in einem verwandten Sinne Rekurrenzen auf. Obwohl sie mit unterschiedlichen Zielen trainiert werden, kann der aus der Diffusionsliteratur adaptierte Sampler – das sogenannte Diffusion Forcing – direkt angewendet werden, um die Generierung bereits existierender rekurrenten Tiefenmodelle zu parallelisieren.
Der Diffusion Forcing Sampler erzeugt Token-Entwürfe aus Zwischenschritten, anstatt darauf zu warten, dass die Rekurrenz an einer bestimmten Position vollständig konvergiert, bevor das nächste Token generiert wird. Er geht dann zur nächsten Position über, wobei der nachfolgende Vorwärtsdurchlauf die Entwürfe für die aktuellen und nachfolgenden Schritte gleichzeitig verfeinert und einen ersten Entwurf für einen weiteren Schritt dekodiert. Auf diese Weise wird Parallelität entlang der Sequenzdimension erreicht, ähnlich dem spekulativen Dekodieren. Wichtig ist, dass die Informationen weiterhin strikt von links nach rechts propagieren und die Ausgabesequenz über Rekurrenzen iterativ verfeinert wird. Dieser Ansatz reduziert zwar nicht die FLOPs (Floating Point Operations), nutzt aber moderne GPU-Architekturen effektiv aus, indem er zusätzliche Parallelisierungsmöglichkeiten erschließt.
Für die Anwendung des Diffusion Forcing Samplers auf rekurrente Tiefenmodelle sind bestimmte architektonische Merkmale entscheidend:
Der Algorithmus des Samplers integriert auch stabilisierende Komponenten. Dazu gehört das Hinzufügen von Momentum zur Eingabekonditionierung, was die Rekurrenz in komplexen Sequenzen stabilisieren kann. Überraschenderweise kann auch das künstliche Hinzufügen von Rauschen zu den Zuständen in jedem Schritt des Samplers – analog zum Sampling aus kontinuierlichen Diffusionsmodellen – den iterativen Prozess stabilisieren und zu einer Steigerung von Genauigkeit und Durchsatz führen, insbesondere bei wenigen inneren Rekurrenzschritten.
Eine weitere Verbesserung ist die adaptive Ausstiegsstrategie. Bei einem festen Ausstiegsschema könnte Rechenleistung verschwendet werden, wenn Zustände schneller konvergieren, oder die Generierung könnte sich verschlechtern, wenn Zustände aufgrund späterer Änderungen in der Konditionierung zuvor nicht konvergiert sind. Durch die Verwendung einer adaptiven Ausstiegskriteriums, wie der normalisierten Distanz im latenten Raum, können Positionen, deren Konvergenz einen bestimmten Schwellenwert unterschreitet, eingefroren werden. Dies begrenzt den maximalen Speicherverbrauch und stellt sicher, dass nur konvergierte Zustände eingefroren werden.
Die theoretische Analyse beleuchtet, warum Modelle beim Vorfüllen ("prefilling") die Tiefenskalierung und beim Dekodieren die Parallelisierung über eine größere "Wellenfront" von Tokens priorisieren sollten.
Im Kontext rekurenter Tiefenmodelle wird die Tiefe als die Anzahl der seriellen Transformer-Block-Vorwärtsdurchläufe definiert, während die Breite die Anzahl der parallel verarbeiteten Hidden States ist. Die Analyse zeigt, dass Tiefenskalierung unter gleichen Skalierungsfaktoren ausdrucksstärker ist als Breitenskalierung. Für das Dekodieren demonstriert der Diffusion Forcing Sampler, dass er bei gleichem Rechenbudget eine gleiche Tiefe und eine strikt größere Breite als die Standard-autoregressive Dekodierung erreicht.
Die experimentelle Bewertung bestätigt die Effektivität des neuen Samplers. Im Vergleich zu einer optimierten Implementierung des Standard-autoregressiven Samplings (Batch-Größe 1) führt der parallelisierte Sampler zu signifikanten Beschleunigungen von etwa dem Fünffachen. Dies geht mit geringfügigen Einbußen bei der Generierungsqualität von etwa 1 % einher, abhängig von der Aufgabe und den gewählten Hyperparametern.
Die Evaluierung auf vier generativen Benchmarks (GSM8K, MATH500, HumanEval und MBPP) zeigte konsistente Leistungssteigerungen. Der Diffusion Sampler übertraf sogar gut abgestimmte spekulative Dekodierungs-Baselines. Die Robustheit des Samplers wurde auch über verschiedene Modellvarianten hinweg bestätigt, einschließlich eines gewichtsgemittelten Checkpoints und eines auf dem MetaMath-Datensatz feinabgestimmten Modells. Dabei blieben die Geschwindigkeitsgewinne und Genauigkeitsabweichungen stabil.
Die Studie untersuchte auch den Einfluss verschiedener Hyperparameter wie die innere Rekurrenz, den Ausstiegsschwellenwert, das Embedding EMA und das Rauschschema. Es wurde festgestellt, dass der Sampler robust gegenüber einer breiten Palette von Einstellungen ist. Insbesondere zeigte sich, dass das Hinzufügen moderater Mengen an Rauschen vorteilhaft sein kann, wenn das Modell weniger innere Rekurrenzschritte ausführt. Größere maximale Wellenfrontgrößen (Anzahl der gleichzeitig modifizierten Tokens) ermöglichten eine bessere Parallelisierung, wobei 64 bis 128 Token auf einer A100 GPU als optimal befunden wurden.
Die Ergebnisse legen nahe, dass rekurrente Tiefenmodelle im Wesentlichen kontinuierliche latente Sprachdiffusionsmodelle sein könnten, die mit einem ungewöhnlichen Ziel, nämlich dem abgeschnittenen Entrollen, trainiert wurden. Dies könnte bedeuten, dass Entrollungsziele auch für zukünftige Sprachdiffusionsmodelle wettbewerbsfähig sein könnten. Allerdings bleiben die rekurrenten Modelle wie Huginn-0125 derzeit kausal, was einen spezifischen Vorteil der Diffusionsmodellierung ungenutzt lässt.
Für Mindverse und unsere Kunden bedeutet diese Forschung, dass die Generierung von KI-Inhalten, Bildern und die Durchführung von Recherchen mit rekurrenten Tiefenmodellen künftig deutlich effizienter gestaltet werden könnten. Die Möglichkeit, bestehende Modelle ohne erneutes Tuning um das Fünffache zu beschleunigen, eröffnet neue Wege für die Skalierung und den Einsatz von KI in anspruchsvollen B2B-Anwendungen.
- Geiping, J., Yang, X., & Su, G. (2025). Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models. arXiv preprint arXiv:2510.14961. - Chen, H., Ren, Y., Ying, L., & Rotskoff, G. M. (2024). Accelerating Diffusion Models with Parallel Sampling: Inference at Sub-Linear Time Complexity. arXiv preprint arXiv:2405.15986. - Shih, A., Belkhale, S., Ermon, S., Sadigh, D., & Anari, N. (2023). Parallel Sampling of Diffusion Models. arXiv preprint arXiv:2305.16317. - Guo, G., & Ermon, S. (2025). Reviving Any-Subset Autoregressive Models with Principled Parallel Sampling and Speculative Decoding. arXiv preprint arXiv:2504.20456. - Hugging Face Papers. (2025). Daily Papers. Retrieved from https://huggingface.co/papers - Paper Reading Club. (2025). Efficient Parallel Samplers for Recurrent-Depth Models and Their ... Retrieved from https://paperreading.club/page?id=348412 - NeurIPS. (2025). NeurIPS Poster Accelerating Diffusion Models with Parallel Sampling. Retrieved from https://neurips.cc/virtual/2024/poster/95999
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen