Neues Framework zur Optimierung von Maskierten Diffusionsmodellen: LFPO im Fokus

Kategorien:

No items found.

Freigegeben:

March 5, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

LFPO (Likelihood-Free Policy Optimization) ist ein neues Framework zur Optimierung Maskierter Diffusionsmodelle (dLLMs), das die Herausforderung der intrakktablen Likelihood-Berechnung adressiert.
Es nutzt ein Konzept des Vektorfeld-Flussabgleichs im diskreten Token-Raum, um die Ausrichtung als geometrische Geschwindigkeitsrektifizierung zu formulieren.
LFPO optimiert Denoising-Logits direkt durch kontrastive Updates, wodurch Fehler aus Likelihood-Approximationen vermieden und präzise Gradientenschätzungen ermöglicht werden.
Das Framework verbessert die Konsistenz, indem es Endlösungen aus Zwischenschritten vorhersagt, was den Wahrscheinlichkeitsfluss glättet und eine hochwertige Generierung mit weniger Iterationen erlaubt.
Experimente zeigen, dass LFPO modernste Baselines in Code- und Reasoning-Benchmarks übertrifft und die Inferenzgeschwindigkeit um etwa 20 % durch reduzierte Diffusionsschritte erhöht.

Die Entwicklung von Large Language Models (LLMs) hat in den letzten Jahren signifikante Fortschritte gemacht. Insbesondere der Übergang von autoregressiven Modellen zu Diffusionsmodellen, oft als Diffusion Large Language Models (dLLMs) bezeichnet, eröffnet neue Möglichkeiten in der mathematischen Argumentation und Codegenerierung. Während autoregressive Modelle traditionell Token sequenziell von links nach rechts generieren, arbeiten dLLMs mit einem holistischen Denoising-Mechanismus, der eine nicht-autoregressive Natur aufweist. Dies ermöglicht eine überlegene globale Planung und iterative Verfeinerung durch gleichzeitige Aktualisierungen der gesamten Codestruktur, was auch zu deutlich schnelleren Inferenzgeschwindigkeiten durch parallele Dekodierungsstrategien führen kann. Trotz dieser vielversprechenden Fähigkeiten bleibt die effektive Ausrichtung von dLLMs an menschliche Absichten oder Korrektheitsfeedback eine Herausforderung.

Ein zentrales Problem bei der Anwendung von Reinforcement Learning with Verifiable Rewards (RLVR) auf dLLMs ist die Unmöglichkeit einer exakten Likelihood-Berechnung. Bestehende Methoden müssen sich daher auf Approximationen mit hoher Varianz verlassen, was zu Instabilität und suboptimaler Effizienz im Training führen kann. Die Schwierigkeit ergibt sich aus dem ganzheitlichen Denoising-Prozess von Diffusionsmodellen, bei dem exakte Likelihoods mathematisch nicht zugänglich sind, im Gegensatz zu autoregressiven Modellen, deren sequentielle Inferenz eine einfache Likelihood-Berechnung ermöglicht.

LFPO: Ein neuer Ansatz zur Optimierung von Diffusionsmodellen

Um diese Herausforderung zu bewältigen, wurde das Framework Likelihood-Free Policy Optimization (LFPO) entwickelt. LFPO stellt einen grundlegenden Perspektivwechsel dar: Anstatt die intrakktable Likelihood zu approximieren, wird die Ausrichtung als direkte Rektifizierung diskreter Logits (Geschwindigkeit) in Richtung hochbelohnter Trajektorien verstanden. Dies geschieht durch die Abbildung des Konzepts des Vektorfeld-Flussabgleichs in den diskreten Token-Raum.

Geometrische Geschwindigkeitsrektifizierung

Im Kern formuliert LFPO die Ausrichtung als geometrische Geschwindigkeitsrektifizierung, die Denoising-Logits direkt über kontrastive Updates optimiert. Dieses Design umgeht effektiv die Fehler, die Likelihood-Approximationen innewohnen, und ermöglicht eine präzise Gradientenschätzung. LFPO lernt, seine Denoising-Richtung zu korrigieren, indem es Vorhersagen näher an positive Ergebnisse zieht und sie von negativen abstößt. Die Vermeidung rauschbehafteter Approximationen bei der Likelihood-Schätzung minimiert signifikant die Varianz des Fehlers bei jedem Updateschritt, was zu einer glatteren Optimierungslandschaft führt und dem Modell ermöglicht, zu einem Leistungsoptimum zu konvergieren, das mit Likelihood-basierten Methoden mathematisch nicht erreichbar wäre.

Konsistenz und Effizienz

Ein weiterer Aspekt von LFPO ist die Durchsetzung von Konsistenz durch die Vorhersage finaler Lösungen aus Zwischenschritten. Dies glättet den Wahrscheinlichkeitsfluss und ermöglicht eine hochwertige Generierung mit deutlich weniger Iterationen. LFPO integriert ein robustes Konsistenztrainingsziel, das das Modell explizit darauf trainiert, beliebige Zwischenzustände direkt auf die Endlösung abzubilden. Dies verankert den Optimierungszielpunkt, wodurch Trajektorienschwankungen, die durch Zwischenrauschen verursacht werden, unterdrückt und eine überlegene Generierungsstabilität gewährleistet wird.

Skalierbare und stabile Gradientenschätzung

Die Optimierung von Diffusionsmodellen erfordert eine effiziente und stabile Gradientenschätzung. LFPO adressiert dies durch zwei Schlüsselmechanismen:

Stratified Trajectory Sampling

Der maskierte Diffusionsprozess beinhaltet eine diskrete Übergangssequenz. Eine naive zufällige Stichprobenziehung eines einzelnen Zeitpunkts führt zu Gradienten mit hoher Varianz, da die Denoising-Schwierigkeit über verschiedene Generierungsphasen hinweg ungleichmäßig ist. LFPO verwendet das Stratified Trajectory Sampling, um eine dichte zeitliche Abdeckung sicherzustellen. Dabei wird der gültige Zeitbereich in uniforme Segmente unterteilt, und in jedem Trainingsschritt wird genau ein Zeitpunkt aus jedem Segment zufällig ausgewählt.

Block-wise Gradient Accumulation

Die Schätzung der präzisen Geschwindigkeitsrichtung zur Rektifizierung der Policy erfordert die Aggregation von Statistiken aus mehreren Trajektorien. Dies kann zu einem enormen Rechenaufwand führen. LFPO implementiert ein Block-wise Gradient Accumulation-Schema, das die Gesamtzahl der Samples in kleinere, speichereffiziente Blöcke aufteilt. Die Optimierung erfolgt in einer hybriden Parallel-Seriell-Ausführung: Gradienten werden innerhalb jedes Blocks parallel berechnet, um die GPU-Parallelität zu nutzen, und dann seriell über die Blöcke hinweg akkumuliert. Diese Technik ermöglicht es, die effektive Batchgröße ohne Hardware-Upgrades um eine Größenordnung zu erhöhen, wodurch die Varianz des Policy-Gradienten erheblich reduziert wird.

Empirische Ergebnisse und Leistungsanalyse

Umfassende Experimente belegen die Leistungsfähigkeit von LFPO in verschiedenen Domänen, darunter Codegenerierung und mathematische Argumentation.

Überlegene Leistung durch präzise Gradientenschätzung

LFPO übertrifft konsistent sowohl die Basismodelle als auch Likelihood-basierte RL-Baselines in allen Metriken. Im Bereich der Codegenerierung erzielt LFPO eine durchschnittliche Punktzahl von 60,8, was die Baseline AGRPO (60,6) übertrifft. Auf dem HumanEval-Benchmark erreicht die Methode 75,6, eine absolute Verbesserung von 3,6 % gegenüber dem Basismodell DiffuCoder. Im Bereich der Argumentation ist der Vorteil noch ausgeprägter, wobei LFPO auf den anspruchsvollen GSM8K- und MATH-Benchmarks Zuwächse von 9,9 % bzw. 7,0 % gegenüber LLaDA 8B erzielt. Diese überlegene Leistung wird der Tatsache zugeschrieben, dass LFPO die Approximation intrakktabler Likelihoods umgeht und die Optimierung als direkte Regression formuliert. Dies führt zu einer deutlich genaueren Gradientenschätzung mit minimaler Varianz, wodurch verhindert wird, dass die Policy in suboptimalen lokalen Minima stecken bleibt.

Inferenz-Effizienz durch optimales Trajektorienlernen

Ein kritischer Engpass bei Diffusions-Sprachmodellen sind die hohen Rechenkosten, die mit iterativem Denoising verbunden sind. LFPO beschleunigt die Inferenz signifikant und verbessert gleichzeitig die Leistung. Im Vergleich zum Basismodell reduziert die Methode die durchschnittlichen Inferenzschritte für Codeaufgaben um etwa 41,8 Schritte und für Argumentationsaufgaben um 159,0 Schritte. Dies steht im Gegensatz zu Baselines wie AGRPO, die oft die Effizienz verschlechtern, um marginale Leistungssteigerungen zu erzielen. Diese Divergenz resultiert aus dem grundlegenden Unterschied in den Optimierungszielen: Während Likelihood-Maximierung dazu neigt, sich an spezifische, oft mäandernde Trajektorien der Trainingsdaten anzupassen, fördert LFPO durch die Behandlung der Generierung als Flussabgleichproblem das Lernen eines direkteren Vektorfeldes vom Masken-Prior zur Datenverteilung. Dies glättet die Generierungstrajektorie effektiv, wodurch das Modell hochwertige Lösungen mit deutlich weniger Zwischenschritten erreichen kann.

Trainingskonvergenz durch Recheneffizienz

LFPO zeigt auch eine deutlich schnellere Konvergenz im Training im Vergleich zu Baselines wie AGRPO. Die Methode erreicht die Spitzenleistung der Baseline bis zu 8-mal schneller auf HumanEval und MATH und 4,4-mal schneller auf Hellaswag. Diese Beschleunigung wird zwei synergetischen Faktoren zugeschrieben: der Block-wise Rectified Optimization-Strategie, die den Rechendurchsatz durch parallele Logit-Berechnung bei gleichzeitiger Speichereffizienz verbessert, und der beschleunigten Generierungsfähigkeit des Modells, die die Kosten der Inferenzphase innerhalb jeder Trainingsiteration reduziert. Dies schafft einen positiven Kreislauf, in dem schnellere Datenerfassung zu häufigeren Gradienten-Updates pro Zeiteinheit führt und eine schnelle Konvergenz ermöglicht.

Ablationsstudie

Zur Untersuchung der geometrischen Mechanismen, die LFPO antreiben, wurden Varianten analysiert, die mit partiellen Zielen optimiert wurden: "Pos. Only" (Anziehung) und "Neg. Only" (Abstoßung). Beide Varianten zeigten Verbesserungen gegenüber dem Basismodell, erreichten jedoch nicht die Leistung des vollständigen "All Loss"-Ziels. Geometrisch betrachtet wirkt der "Pos. Only"-Term als Anziehungskraft, die die Modellgeschwindigkeit in Richtung des korrekten Tokens zieht, was für die Argumentationsgenauigkeit entscheidend ist. Umgekehrt wirkt der "Neg. Only"-Term als Abstoßungskraft, die die Geschwindigkeit von falschen Tokens wegdrückt. Die überlegene Leistung des kombinierten Ziels bestätigt, dass die Gestaltung des Vektorfeldes einen kontrastiven Ansatz erfordert: gleichzeitige Förderung korrekter Richtungen und aktive Unterdrückung von Abweichungen in Bereiche mit niedriger Belohnung gewährleistet den robustesten generativen Fluss.

Zusammenfassend lässt sich festhalten, dass LFPO einen vielversprechenden Weg zur Optimierung von Maskierten Diffusionsmodellen darstellt, indem es die Limitierungen Likelihood-basierter Methoden überwindet und gleichzeitig die Effizienz und Qualität der Generierung verbessert. Die Anwendung dieser Prinzipien könnte weitreichende Auswirkungen auf die Entwicklung und den Einsatz von KI-Modellen in anspruchsvollen B2B-Szenarien haben, insbesondere dort, wo Präzision, Geschwindigkeit und Stabilität entscheidend sind.

Bibliographie

- Wei, C., Kang, J., Wang, H., Zhang, J., Jiang, H., Xu, X., Sun, N., He, Y., Yu, F. R., Shu, Y., & Jiang, B. (2026). LFPO: Likelihood-Free Policy Optimization for Masked Diffusion Models. arXiv preprint arXiv:2603.01563. - Zheng, K., Chen, H., Ye, H., Wang, H., Zhang, Q., Jiang, K., Su, H., Ermon, S., Zhu, J., & Liu, M.-Y. (2025b). DiffusionNFT: online diffusion reinforcement with forward process. - Lipman, Y., Chen, R. T. Q., Ben-Hamu, H., Nickel, M., & Le, M. (2023). Flow matching for generative modeling. In The Eleventh International Conference on Learning Representations. - Liu, X., Gong, C., & Liu, Q. (2023b). Flow straight and fast: Learning to generate and transfer data with rectified flow. In The Eleventh International Conference on Learning Representations. - Lou, A., Meng, C., & Ermon, S. (2024). Discrete diffusion modeling by estimating the ratios of the data distribution. In Proceedings of the 41st International Conference on Machine Learning, ICML’24. - Schulman, J., Levine, S., Moritz, P., Jordan, M. I., & Abbeel, P. (2017a). Trust region policy optimization. - Schulman, J., Wolski, F., Dhariwal, P., Radford, A., & Klimov, O. (2017b). Proximal policy optimization algorithms. - Shao, Z., Wang, P., Zhu, Q., Xu, R., Song, J., Bi, X., Zhang, H., Zhang, M., Li, Y. K., Wu, Y., & Guo, D. (2024). Deepseekmath: Pushing the limits of mathematical reasoning in open language models. - Gong, S., Zhang, R., Zheng, H., Gu, J., Jaitly, N., Kong, L., & Zhang, Y. (2025). Diffucoder: Understanding and improving masked diffusion models for code generation. - Nie, S., Zhu, F., You, Z., Zhang, X., Ou, J., Hu, J., Zhou, J., Lin, Y., Wen, J.-R., & Li, C. (2025). Large language diffusion models. In The Thirty-ninth Annual Conference on Neural Information Processing Systems. - Zhao, S., Gupta, D., Zheng, Q., & Grover, A. (2025). D1: Scaling reasoning in diffusion large language models via reinforcement learning. In The Thirty-ninth Annual Conference on Neural Information Processing Systems. - Zhan, A. (2025). Principled and tractable rl for reasoning with diffusion language models. - Chen, M., Tworek, J., Jun, H., Yuan, Q., de Oliveira Pinto, H. P., Kaplan, J., Edwards, H., Burda, Y., Joseph, N., Brockman, G., et al. (2021). Evaluating large language models trained on code. - Austin, J., Odena, A., Nye, M., Bosma, M., Michalewski, H., Dohan, D., Jiang, E., Cai, C., Terry, M., Le, Q., & Sutton, C. (2021b). Program synthesis with large language models. - Liu, J., Xia, C. S., Wang, Y., & Zhang, L. (2023a). Is your code generated by chatGPT really correct? rigorous evaluation of large language models for code generation. In Thirty-seventh Conference on Neural Information Processing Systems. - Zhuo, T. Y., Chien, V. M., Chim, J., Hu, H., Widyasari, R., Yusuf, I. N. B., Zhan, H., He, J., Paul, I., Brunner, S., Gong, C., Hoang, J., Zebaze, A. R., Hong, X., Li, W.-D., Kaddour, J., Xu, M., Zhang, Z., Yadav, P., Jain, N., Gu, A., Cheng, Z., Liu, J., Liu, Q., Wang, Z., Lo, D., Hui, B., Muennighoff, N., Fried, D., Du, X., de Vries, H., & Werra, L. V. (2025). BigCodeBench: Benchmarking code generation with diverse function calls and complex instructions. In The Thirteenth International Conference on Learning Representations. - Cobbe, K., Kosaraju, V., Bavarian, M., Chen, M., Jun, H., Kaiser, L., Plappert, M., Tworek, J., Hilton, J., Nakano, R., Hesse, C., & Schulman, J. (2021). Training verifiers to solve math word problems. - Hendrycks, D., Burns, C., Kadavath, S., Arora, A., Basart, S., Tang, E., Song, D., & Steinhardt, J. (2021). Measuring mathematical problem solving with the math dataset. NeurIPS. - Zellers, R., Holtzman, A., Bisk, Y., Farhadi, A., & Choi, Y. (2019). Hellaswag: Can a machine really finish your sentence?. - Rein, D., Hou, B. L., Stickland, A. C., Petty, J., Pang, R. Y., Dirani, J., Michael, J., & Bowman, S. R. (2024). GPQA: A graduate-level google-proof q&a benchmark. In First Conference on Language Modeling. - Sakaguchi, K., Bras, R. L., Bhagavatula, C., & Choi, Y. (2019). Winogrande: An adversarial winograd schema challenge at scale. - Bisk, Y., Zellers, R., Bras, R. L., Gao, J., & Choi, Y. (2019). Piqa: Reasoning about physical commonsense in natural language.