Neuer Ansatz zur Beschleunigung der Diffusionsmodelle durch kontinuierliche Optimierung

Kategorien:

No items found.

Freigegeben:

May 10, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Diffusion Distillation ist eine Methode, um Diffusionsmodelle zu beschleunigen, indem die Anzahl der erforderlichen Schritte zur Bilderzeugung reduziert wird.
CDM (Continuous-Time Distribution Matching) ist ein neues Framework, das die Diskretisierungsfehler früherer Methoden durch eine kontinuierliche Optimierung minimiert.
CDM verwendet einen dynamischen, kontinuierlichen Zeitplan und eine neuartige Off-Trajectory-Loss-Funktion, um die Konsistenz der Modelle zu verbessern.
Die Methode erreicht eine hohe Bildqualität bei wenigen Schritten (z.B. 4 NFE) und übertrifft bestehende Baselines ohne komplexe Zusatzmodule.
CDM wurde erfolgreich auf Modelle wie SD3-Medium und Longcat-Image angewendet.

Diffusionsmodelle haben die Bilderzeugung revolutioniert, doch ihre iterative Natur führt zu einem hohen Rechenaufwand. Dieser Umstand hat die Entwicklung von Beschleunigungstechniken vorangetrieben, um die Effizienz zu steigern, ohne die Bildqualität zu beeinträchtigen. Eine der vielversprechendsten Methoden in diesem Bereich ist die Diffusion Distillation, die darauf abzielt, die Anzahl der erforderlichen Schritte (Network Function Evaluations, NFE) zu minimieren. Ein aktueller Ansatz, bekannt als Continuous-Time Distribution Matching (CDM), verspricht hierbei signifikante Fortschritte.

Herausforderungen in der Diffusion Distillation

Diffusionsmodelle wie Stable Diffusion erzeugen Bilder durch einen sequenziellen Prozess, der Dutzende bis Hunderte von Schritten erfordert. Dies stellt einen erheblichen Engpass für den praktischen Einsatz dar. Um dies zu umgehen, wurden verschiedene Distillationsparadigmen entwickelt. Zwei prominente Ansätze sind die Distribution Matching Distillation (DMD) und die Consistency Distillation.

Grenzen bestehender DMD-Methoden

Traditionelle DMD-Methoden basieren auf einer diskreten Formulierung, bei der die Überwachung an einer begrenzten Anzahl vordefinierter Zeitpunkte erfolgt. Dies führt zu mehreren Problemen:

Diskretisierungsfehler: Die Beschränkung auf wenige, feste Zeitpunkte kann zu akkumulierten Fehlern führen, insbesondere bei der Erzeugung von Bildern mit wenigen Schritten.
Unstetiges Geschwindigkeitsfeld: Die spärliche Überwachung kann dazu führen, dass das Modell ein ungleichmäßiges Geschwindigkeitsfeld lernt, was die Qualität der generierten Bilder beeinträchtigt.
Mode-Seeking-Verhalten: Das zugrunde liegende Reverse-KL-Divergenz-Ziel tendiert dazu, dominante Modi der Lehrerverteilung zu bevorzugen, was zu überglätteten oder artefaktreichen Ergebnissen führen kann.

Um diese Mängel zu beheben, waren oft zusätzliche Module wie GANs (Generative Adversarial Networks) oder Reward-Modelle erforderlich, was die Komplexität und den Trainingsaufwand erhöht.

CDM: Ein kontinuierlicher Ansatz für die Diffusion Distillation

Das Continuous-Time Distribution Matching (CDM) Framework adressiert die genannten Limitationen, indem es die Distillation in einen kontinuierlichen Optimierungsraum verlagert. Dies wird durch zwei zentrale Designentscheidungen erreicht:

Dynamischer kontinuierlicher Zeitplan

Anstatt sich auf feste, diskrete Zeitpunkte zu beschränken, führt CDM einen dynamischen, kontinuierlichen Zeitplan ein. Dies bedeutet, dass die Länge der Rückwärtssimulation in jeder Trainingsiteration zufällig gewählt wird und die Überwachung an beliebigen Punkten entlang der Abtasttrajektorien erfolgt. Dadurch wird das Modell über den gesamten kontinuierlichen Zeitbereich trainiert und erhält Gradienteninformationen von einer breiteren Palette von Trajektorien. Empirische Analysen zeigen, dass diese Dynamisierung die Distillationsleistung verbessert und zu feineren Details sowie weniger Artefakten führt.

Continuous-Time Alignment Objective (CDM-Loss)

Ein weiteres Schlüsselelement ist die CDM-Loss-Funktion, die eine geschwindigkeitsgesteuerte Extrapolation in ihr Matching-Ziel integriert. Bei der Generierung mit wenigen Schritten treten aufgrund großer Integrationsschritte numerische Trunkierungsfehler auf, die dazu führen, dass die Inferenz-Trajektorie von der idealen Mannigfaltigkeit abweicht. Die CDM-Loss-Funktion wirkt diesem entgegen, indem sie aktiv Off-Trajectory-Latente durch einen Euler-Schritt entlang des vorhergesagten Geschwindigkeitsfeldes des Studenten untersucht und darauf eine Verteilungsanpassung erzwingt. Diese räumliche Ausrichtungsfunktion hilft dem Modell, Integrationsfehler selbst zu korrigieren und scharfe, hochfrequente Details wiederherzustellen.

Detaillierte Funktionsweise von CDM

Das CDM-Framework kombiniert drei Verlustkomponenten, um eine hohe Bildqualität bei wenigen Schritten zu gewährleisten:

CFG Augmentation (CA) Loss (L_CA)

Diese Komponente stellt die Text-Bild-Ausrichtung sicher. Sie bewertet die Übereinstimmung der vom Studentenmodell erzeugten Daten mit der bedingten Textbeschreibung. Der Gradient dieser Verlustfunktion steuert das Modell in Richtung einer besseren semantischen Kohärenz zwischen Text und Bild.

Distribution Matching (DM) Loss (L_DM)

Die DM-Loss-Funktion gleicht die erzeugte Verteilung des Studentenmodells mit der realen Datenverteilung ab. Studien haben gezeigt, dass diese Komponente nicht nur als Stabilisator dient, sondern den Studenten aktiv dazu bringt, sich an die CFG-freie Verteilung des Lehrermodells anzupassen, was für die Beibehaltung der Bildqualität entscheidend ist.

Continuous-Time Distribution Matching (CDM) Loss (L_CDM)

Die neuartige CDM-Loss-Funktion ergänzt die Überwachung der Trajektorie durch die Einführung von Zwischen-Latenten zwischen benachbarten Ankerpunkten. Durch die Extrapolation mittels des vorhergesagten Geschwindigkeitsfeldes des Studenten werden auch Punkte außerhalb der direkten Trajektorie überwacht. Dies fördert ein glatteres und regelmäßigeres Geschwindigkeitsfeld für die Integration mit wenigen Schritten und reduziert Inkonsistenzen zwischen den Ankerpunkten.

Das vollständige Trainingsziel ist eine Kombination dieser drei Verlustfunktionen: L = L_CA + L_DM + L_CDM.

Experimentelle Ergebnisse und Leistungsbewertung

Umfassende Experimente wurden auf verschiedenen Architekturen durchgeführt, darunter SD3-Medium und Longcat-Image. Die Ergebnisse demonstrieren, dass CDM eine konkurrenzfähige visuelle Wiedergabetreue für die Bilderzeugung mit wenigen Schritten liefert, ohne auf komplexe Hilfsziele angewiesen zu sein.

Quantitative Analyse

CDM zeigte in quantitativen Vergleichen mit bestehenden Baselines wie Hyper-SD, Flash, TDM, DMD2 und D-DMD eine überzeugende Leistung. Auf SD3-Medium erreichte CDM die besten Werte für Aesthetic Score (6.075), DPGBench (85.26), PickScore (21.95) und HPSv3 (9.561) bei nur 4 NFE. Ähnliche Trends wurden bei Longcat-Image beobachtet. Bemerkenswert ist, dass das 4-NFE-Studentenmodell in einigen Metriken sogar das 100-NFE-Lehrermodell übertrifft, was darauf hindeutet, dass das kontinuierliche Optimierungsframework über die reine Replikation der Lehrerergebnisse hinausgehende Überwachungssignale bereitstellt.

Qualitative Analyse

In qualitativen Vergleichen zeigte CDM konsistent schärfere Texturen, feinere Details (z.B. Hintergrundelemente und Materialreflexionen) und eine stärkere semantische Übereinstimmung mit komplexen Prompts. Konkurrierende Baselines wiesen oft verschwommene hochfrequente Inhalte oder fehlende Attribute auf. Visuell konnte CDM in vielen Fällen die perzeptuelle Schärfe und Ästhetik des 100-NFE-Lehrermodells erreichen oder sogar übertreffen.

Ablationsstudien

Ablationsstudien bestätigten die komplementäre Rolle jeder Verlustkomponente. Das alleinige Verwenden von L_CA führte zu strukturellem Kollaps, während L_DM oder L_CDM allein zwar die visuelle Qualität wiederherstellten, aber Probleme bei der Prompt-Übereinstimmung hatten. Die Kombination von L_CA mit einer der Distribution-Matching-Verlustfunktionen verbesserte sowohl die Ausrichtung als auch die Ästhetik erheblich. Das vollständige CDM-Ziel (L_CA + L_DM + L_CDM) erzielte die beste Gesamtleistung.

Die Studien zeigten zudem die Bedeutung des dynamischen Zeitplans und der Off-Trajectory-Perturbationsstrategie. Ein fester Zeitplan führte zu einem erheblichen Rückgang der Generierungsqualität, und der Ersatz der geschwindigkeitsgesteuerten Extrapolation durch Gaußsches Rauschen verschlechterte die Leistung. Dies untermauert die Wirksamkeit der CDM-Designentscheidungen.

Fazit und Ausblick

Continuous-Time Distribution Matching (CDM) stellt einen signifikanten Fortschritt in der Diffusion Distillation dar. Indem es die Optimierung in einen kontinuierlichen Zeitbereich verlagert und einen dynamischen Zeitplan sowie eine neuartige Off-Trajectory-Alignment-Loss-Funktion nutzt, adressiert CDM die Herausforderungen diskreter Methoden. Es ermöglicht die Generierung hochwertiger Bilder mit wenigen Schritten, ohne auf ressourcenintensive Ansätze wie adversaries Training oder aufwendige externe Reward-Modelle angewiesen zu sein.

Diese Entwicklung könnte den Zugang zu Diffusionsmodellen verbessern und deren Einsatz auf handelsüblicher Hardware erleichtern. Zukünftige Arbeiten könnten die Anwendung von CDM auf komplexere visuelle Syntheseaufgaben, wie die Bearbeitung von Text-zu-Bild- oder Video-Diffusionsmodellen, untersuchen, wo die Trajektorienlänge und zeitliche Konsistenz eine noch größere Rolle spielen.

Bibliography

- Liu, T., Yan, H., Chen, M., Hu, T., Yue, Z., Pan, Z., Lan, J., Zhu, X., Cheng, M.-M., Zheng, B., & Wang, Y. (2026). Continuous-Time Distribution Matching for Few-Step Diffusion Distillation. arXiv preprint arXiv:2605.06376. - CDM: Continuous-Time Distribution Matching for Few-Step Diffusion Distillation (o. J.). Abgerufen am 24. Mai 2024, von https://byliutao.github.io/cdm_page/ - biliutao/CDM: Continuous-Time Distribution Matching for Few-Step Diffusion Distillation. (2026). GitHub. Abgerufen am 24. Mai 2024, von https://github.com/byliutao/cdm - Learning Few-Step Diffusion Models by Trajectory Distribution Matching (o. J.). Abgerufen am 24. Mai 2024, von https://arxiv.org/abs/2503.06674 - One-step Diffusion with Distribution Matching Distillation (o. J.). Abgerufen am 24. Mai 2024, von https://arxiv.org/abs/2311.18828