Das Wichtigste in Kürze
- Diffusionsmodelle sind eine Familie generativer Modelle, die durch schrittweises Hinzufügen von Rauschen Daten in Rauschen umwandeln und diesen Prozess dann umkehren, um neue Daten aus Rauschen zu erzeugen.
- Drei Hauptformulierungen dominieren die aktuelle Forschung: Denoising Diffusion Probabilistic Models (DDPMs), Score-Based Generative Models (SGMs) und Stochastic Differential Equations (Score SDEs).
- Die Effizienz der Stichprobenentnahme ist ein zentraler Forschungsbereich, mit Ansätzen, die entweder lernfrei (z.B. SDE- und ODE-Löser) oder lernbasiert (z.B. Wissensdestillation) sind.
- Die Verbesserung der Likelihood-Schätzung konzentriert sich auf die Optimierung von Rauschzeitplänen, das Lernen von inversen Varianzen und die exakte Berechnung der Likelihood.
- Diffusionsmodelle werden an spezielle Datenstrukturen wie diskrete Daten, invariante Strukturen und Mannigfaltigkeitsstrukturen angepasst.
- Sie finden breite Anwendung in der Computer Vision, der Verarbeitung natürlicher Sprache, der Zeitreihenmodellierung, beim multimodalen Lernen und in interdisziplinären Bereichen.
 
Diffusionsmodelle haben sich in den letzten Jahren zu einer zentralen Technologie im Bereich der generativen Künstlichen Intelligenz entwickelt. Ihre Fähigkeit, hochqualitative und vielfältige Daten zu generieren, hat sie zu einem unverzichtbaren Werkzeug in zahlreichen Anwendungsbereichen gemacht, von der Bildsynthese bis zur Modellierung komplexer biologischer Strukturen. Dieser Artikel beleuchtet die grundlegenden Prinzipien, die diesen Modellen zugrunde liegen, und bietet eine detaillierte Analyse ihrer Funktionsweise, Weiterentwicklungen und vielfältigen Anwendungen.
Grundlagen der Diffusionsmodelle
Diffusionsmodelle sind eine Klasse probabilistischer generativer Modelle, die einen zweistufigen Prozess nutzen, um Daten zu erzeugen. Der erste Schritt, der sogenannte 
Vorwärtsprozess (Forward Process), beinhaltet das schrittweise Hinzufügen von Rauschen zu den Daten, bis diese vollständig in eine einfache, leicht zu modellierende Rauschverteilung (oft eine Gauß-Verteilung) überführt sind. Der zweite Schritt, der 
Rückwärtsprozess (Reverse Process), ist das Erlernen, wie dieses Rauschen schrittweise entfernt werden kann, um aus der Rauschverteilung neue, realistische Datenproben zu generieren.
Drei zentrale Formulierungen
Die aktuelle Forschung konzentriert sich auf drei primäre Formulierungen von Diffusionsmodellen, die zwar unterschiedliche mathematische Ansätze verfolgen, aber demselben grundlegenden Prinzip der Diffusion folgen:
- 
Denoising Diffusion Probabilistic Models (DDPMs): DDPMs nutzen zwei miteinander verbundene Markov-Ketten. Eine Vorwärtskette, die Rauschen inkrementell zu Daten hinzufügt, und eine Rückwärtskette, die dieses Rauschen entfernt. Die Vorwärtskette ist typischerweise so konzipiert, dass sie eine beliebige Datenverteilung in eine einfache Vorverteilung (z.B. eine Standard-Gauß-Verteilung) überführt. Die Rückwärtskette lernt dann, diese Transformation umzukehren, indem Übergangskerne durch tiefe neuronale Netze parametrisiert werden. Neue Datenpunkte werden generiert, indem zunächst ein Zufallsvektor aus der Vorverteilung gezogen und anschließend die Rückwärts-Markov-Kette durchlaufen wird. Die Optimierung erfolgt durch Minimierung der Kullback-Leibler-Divergenz zwischen den joint distributions der Vorwärts- und Rückwärtsprozesse.
- 
Score-Based Generative Models (SGMs): Im Kern der SGMs steht das Konzept des sogenannten "Score" (auch Stein-Score), definiert als der Gradient der Log-Wahrscheinlichkeitsdichte. Dieser Score ist ein Vektorfeld, das die Richtung des größten Wachstums der Wahrscheinlichkeitsdichte anzeigt. SGMs stören Daten mit einer Sequenz von intensivierendem Gauß-Rauschen und schätzen die Score-Funktionen für alle verrauschten Datenverteilungen durch das Training eines Rausch-konditionalen Score-Netzwerks (NCSN). Die Generierung von Samples erfolgt durch das Verketten der Score-Funktionen bei abnehmenden Rauschpegeln mittels score-basierter Sampling-Ansätze wie Langevin Monte Carlo. Ein wesentlicher Vorteil von SGMs ist die Entkopplung von Training und Inferenz, was eine Vielzahl von Sampling-Techniken ermöglicht.
- 
Stochastic Differential Equations (Score SDEs): Score SDEs verallgemeinern DDPMs und SGMs auf den Fall unendlicher Zeitschritte oder Rauschpegel. Hier werden die Perturbations- und Denoising-Prozesse als Lösungen stochastischer Differentialgleichungen (SDEs) formuliert. Der Vorwärtsprozess wird durch eine SDE beschrieben, die Daten in Rauschen überführt. Für jede solche SDE existiert eine umgekehrte SDE, deren Lösungen die Rauschverteilung schrittweise in Daten umwandeln. Zusätzlich existiert eine gewöhnliche Differentialgleichung (ODE), die Probability Flow ODE, deren Trajektorien dieselben marginalen Verteilungen wie die umgekehrte SDE aufweisen. Die Kenntnis der Score-Funktion zu jedem Zeitpunkt ermöglicht die Lösung dieser Gleichungen und somit die Generierung von Samples. Das Training von Score SDEs erfolgt durch die Minimierung einer Score Matching Objective, die auf kontinuierliche Zeit verallgemeinert ist.
Effiziente Sampling-Methoden
Die Generierung von Samples aus Diffusionsmodellen erfordert typischerweise iterative Ansätze mit einer großen Anzahl von Evaluationsschritten. Die Forschung konzentriert sich darauf, diesen Sampling-Prozess zu beschleunigen und gleichzeitig die Qualität der Samples zu verbessern. Diese Methoden lassen sich in zwei Hauptkategorien unterteilen:
Lernfreie Sampling-Methoden
Diese Methoden basieren auf der Diskretisierung der inversen SDEs oder der Probability Flow ODEs. Da die Sampling-Kosten proportional zur Anzahl der diskretisierten Zeitschritte steigen, zielen viele Ansätze darauf ab, die Anzahl der Zeitschritte zu reduzieren und Diskretisierungsfehler zu minimieren.
- 
SDE-Löser: Der Generierungsprozess von DDPM kann als eine spezielle Diskretisierung der inversen SDE betrachtet werden. Ansätze wie Noise-Conditional Score Networks (NCSNs) und Critically-Damped Langevin Diffusion (CLD) lösen die inverse SDE unter Inspiration der Langevin-Dynamik. Annealed Langevin Dynamics (ALD) generiert iterativ Daten, während der Rauschpegel schrittweise reduziert wird. Verbesserungen wie Consistent Annealed Sampling (CAS) und der Einsatz von adaptiven Schrittgrößen bei SDE-Lösern tragen zur Effizienzsteigerung bei.
- 
ODE-Löser: Ein Großteil der schnelleren Diffusions-Sampler basiert auf der Lösung der Probability Flow ODE. Im Gegensatz zu SDE-Lösern sind die Trajektorien von ODE-Lösern deterministisch und weniger anfällig für stochastische Fluktuationen, was zu schnellerer Konvergenz führen kann, oft auf Kosten einer geringfügig schlechteren Sample-Qualität. Denoising Diffusion Implicit Models (DDIM) ist eine frühe Arbeit, die den Sampling-Prozess beschleunigt, indem es eine deterministische Markov-Kette verwendet. Neuere Entwicklungen wie Heun's Methode höherer Ordnung und spezialisierte ODE-Löser wie Diffusion Exponential Integrator Sampler und DPM-solver nutzen die semi-lineare Struktur der Probability Flow ODE, um die Effizienz weiter zu steigern und qualitativ hochwertige Samples mit deutlich weniger Iterationen zu erzeugen.
Lernbasierte Sampling-Methoden
Diese Ansätze verbessern die Sampling-Geschwindigkeit durch die Nutzung partieller Schritte oder das Training eines Samplers für den inversen Prozess, oft mit einer geringfügigen Beeinträchtigung der Sample-Qualität.
- 
Optimierte Diskretisierung: Hierbei wird versucht, für ein vortrainiertes Diffusionsmodell das optimale Diskretisierungsschema zu finden, indem die besten K Zeitschritte zur Maximierung der Trainings-Objective ausgewählt werden. Techniken wie Differentiable Diffusion Sampler Search optimieren direkt Metriken für die Sample-Qualität, wie den Kernel Inception Distance (KID).
- 
Abgeschnittene Diffusion (Truncated Diffusion): Die Sampling-Geschwindigkeit kann durch ein frühzeitiges Stoppen des Vorwärts- und Rückwärtsprozesses verbessert werden. Dabei wird der Vorwärtsprozess bereits nach wenigen Schritten angehalten, und der inverse Denoising-Prozess beginnt mit einer nicht-Gaußschen Verteilung, deren Samples effizient aus vortrainierten generativen Modellen wie VAEs oder GANs gewonnen werden können.
- 
Wissensdestillation (Knowledge Distillation): Ansätze der Wissensdestillation ermöglichen eine signifikante Beschleunigung des Samplings. Dabei wird der vollständige Sampling-Prozess in einen schnelleren Sampler destilliert, der nur halb so viele Schritte benötigt. Dies kann durch die Parametrisierung des neuen Samplers als tiefes neuronales Netzwerk erreicht werden.
Verbesserte Likelihood-Schätzung
Das Trainingsziel für Diffusionsmodelle ist eine (negative) Variational Lower Bound (VLB) auf der Log-Likelihood. Diese Bound kann jedoch in vielen Fällen nicht sehr eng sein, was zu suboptimalen Log-Likelihoods führt. Die Forschung auf diesem Gebiet konzentriert sich auf die Maximierung der Likelihood.
- 
Optimierung des Rauschzeitplans (Noise Schedule Optimization): In klassischen Diffusionsmodellen sind Rauschzeitpläne im Vorwärtsprozess oft manuell festgelegt. Durch die gemeinsame Optimierung des Rauschzeitplans mit anderen Modellparametern kann die VLB maximiert und somit höhere Log-Likelihood-Werte erzielt werden. Ansätze wie iDDPM und Variational Diffusion Models (VDMs) nutzen spezielle Rauschzeitpläne (z.B. Cosinus-Zeitpläne) oder parametrisieren diese mit monotonen neuronalen Netzen.
- 
Lernen der inversen Varianz (Reverse Variance Learning): Die klassische Formulierung geht oft von festen Varianzparametern in den inversen Gaußschen Übergangskernen aus. Das Lernen dieser inversen Varianzen, beispielsweise durch lineare Interpolation und hybride Optimierungsziele, kann die Log-Likelihoods weiter verbessern und schnelleres Sampling ermöglichen, ohne die Sample-Qualität zu beeinträchtigen.
- 
Exakte Likelihood-Berechnung (Exact Likelihood Computation): Im Rahmen der Score SDE-Formulierung können Samples durch Lösen der inversen SDE generiert werden. Es existieren effizient berechenbare Variations-Lower Bounds, die eine direkte Maximierung der Likelihood ermöglichen. Die Probability Flow ODE erlaubt zudem eine genaue Berechnung der Log-Likelihood, wenn auch mit hohem Rechenaufwand. Neuere Forschungen, wie ScoreFlows, zielen darauf ab, diese Kosten zu reduzieren und die Likelihood-Werte durch Optimierung höherer Ordnungen der Score Matching Losses zu verbessern.
Diffusionsmodelle für spezielle Datenstrukturen
Diffusionsmodelle haben bei kontinuierlichen Daten wie Bildern und Audio große Erfolge erzielt. Für andere Modalitäten, insbesondere solche mit speziellen Strukturen, müssen sie jedoch angepasst werden.
Diskrete Daten
Die meisten Diffusionsmodelle sind auf kontinuierliche Daten ausgelegt, da Gaußsches Rauschen für diskrete Daten ungeeignet ist und Score-Funktionen nur für kontinuierliche Domänen definiert sind. Um dies zu überwinden, wurden Ansätze entwickelt, die Gaußsches Rauschen durch Zufallswanderungen oder Maskierungsoperationen auf diskreten Datenräumen ersetzen (z.B. VQ-Diffusion, D3PM). Neuere Frameworks nutzen kontinuierliche Zeit-Markov-Ketten, um effiziente Sampler für diskrete Diffusionsmodelle zu entwickeln.
Invariante Strukturen
Daten in vielen wichtigen Domänen weisen invariante Strukturen auf (z.B. Graphen sind permutationsinvariant, Punktwolken sind translations- und rotationsinvariant). Um dies zu berücksichtigen, werden Diffusionsmodelle mit der Fähigkeit ausgestattet, diese Invarianzen zu berücksichtigen. Beispiele hierfür sind der Einsatz von permutationsäquivarianten Graphen-Neuronalen Netzen (EDP-GNN) für die Generierung von Graphen oder die Sicherstellung der Translations- und Rotationsinvarianz bei der Generierung molekularer Konformationen.
Mannigfaltigkeitsstrukturen (Manifold Structures)
Natürliche Daten liegen oft auf Mannigfaltigkeiten mit niedrigerer intrinsischer Dimensionalität. Diffusionsmodelle werden an diese Strukturen angepasst, wobei zwischen bekannten und gelernten Mannigfaltigkeiten unterschieden wird:
- 
Bekannte Mannigfaltigkeiten: Die Score SDE-Formulierung wurde auf verschiedene bekannte Mannigfaltigkeiten wie Sphären und Tori erweitert. Zum Training dieser Modelle werden Score Matching und Score-Funktionen an Riemannsche Mannigfaltigkeiten angepasst (z.B. Riemannian Score-Based Generative Model (RSGM), Riemannian Diffusion Model (RDM)).
- 
Gelernte Mannigfaltigkeiten: Hier wird die Datenreduktion auf eine niedrigdimensionale Mannigfaltigkeit durch Autoencoder vorgenommen, und Diffusionsmodelle werden dann in diesem latenten Raum trainiert. Ansätze wie das Latent Score-Based Generative Model (LSGM) und das Latent Diffusion Model (LDM) nutzen diese Technik, um die Sample-Generierung zu beschleunigen und diskrete Daten zu verarbeiten.
Anwendungen von Diffusionsmodellen
Diffusionsmodelle haben sich als äußerst vielseitig erwiesen und finden Anwendung in einer breiten Palette von realen Aufgaben.
Computer Vision
Diffusionsmodelle haben die Computer Vision revolutioniert und werden für eine Vielzahl von Bildverarbeitungsaufgaben eingesetzt:
- 
Bild-Super-Resolution, Inpainting, Restauration, Übersetzung und Bearbeitung: Diffusionsmodelle ermöglichen die Wiederherstellung hochauflösender Bilder aus niedrigauflösenden Eingaben (z.B. SR3, CDM), die Rekonstruktion fehlender Bildbereiche (z.B. RePaint, Palette) und die Synthese von Bildern mit spezifischen Stilen (z.B. SDEdit). Latent Diffusion Models (LDM) haben diese Prozesse durch das Verschieben der Diffusion in den latenten Raum weiter optimiert.
- 
Semantische Segmentierung: Diffusionsmodelle verbessern die Label-Nutzung in der semantischen Segmentierung, indem sie hochrangige semantische Informationen aus den gelernten Repräsentationen extrahieren (z.B. DDeP, ODISE).
- 
Videogenerierung: Die Generierung hochwertiger Videos bleibt eine Herausforderung, doch Diffusionsmodelle verbessern die Qualität generierter Videos erheblich (z.B. Flexible Diffusion Model (FDM), Residual Video Diffusion (RVD)).
- 
Punktwolken-Vervollständigung und -Generierung: Diffusionsmodelle helfen bei der Rekonstruktion unvollständiger Punktwolken durch Inferenz fehlender Teile (z.B. Point-Voxel Diffusion (PVD), Point Diffusion-Refinement (PDR)).
- 
Anomalieerkennung: Generative Modelle bieten einen leistungsstarken Mechanismus zur Anomalieerkennung, indem sie normale oder gesunde Referenzdaten modellieren (z.B. AnoDDPM, DDPM-CD).
Verarbeitung natürlicher Sprache
Diffusionsmodelle werden zunehmend für die Textgenerierung eingesetzt, um plausible und lesbare Texte zu erstellen:
- 
Textgenerierung: Modelle wie Discrete Denoising Diffusion Probabilistic Models (D3PM) und Diffusion-LM ermöglichen die Erstellung von Texten auf Zeichenebene und die kontrollierte Textgenerierung durch kontinuierliche Diffusionsprozesse im latenten Raum.
Multimodales Lernen
Multimodale Diffusionsmodelle können verschiedene Datenmodalitäten miteinander verknüpfen und neue Inhalte generieren:
- 
Text-zu-Bild-Generierung: Diese Modelle generieren Bilder aus beschreibenden Texten (z.B. Blended Diffusion, unCLIP (DALLE-2), Imagen, GLIDE, VQ-Diffusion). Neuere Ansätze wie Versatile Diffusion und UniDiffuser ermöglichen eine vereinheitlichte multimodale Diffusion in verschiedene Richtungen.
- 
Scene Graph-zu-Bild-Generierung: Modelle wie SGDiff können Bilder aus Szenengraphen generieren, die komplexe Beziehungen zwischen Objekten darstellen.
- 
Text-zu-3D-Generierung: Diffusionsmodelle ermöglichen die Synthese von 3D-Inhalten aus Textbeschreibungen (z.B. DreamFusion, Magic3D).
- 
Text-zu-Bewegungs-Generierung: Sie werden zur Erzeugung menschlicher Bewegungen in der Computeranimation eingesetzt (z.B. Motion Diffusion Model (MDM), FLAME).
- 
Text-zu-Video-Generierung: Text-zu-Bild-Modelle werden auf die Videogenerierung erweitert, um hochauflösende Videos zu erzeugen (z.B. Make-A-Video, Imagen Video).
- 
Text-zu-Audio-Generierung: Diffusionsmodelle wandeln Text in Sprachausgabe um und verbessern die Qualität der Audiosynthese (z.B. Grad-TTS, Diffsound).
Zeitreihenmodellierung
Diffusionsmodelle werden auch zur Analyse und Vorhersage von Zeitreihendaten eingesetzt:
- 
Zeitreihen-Imputation: Sie füllen fehlende Werte in Zeitreihendaten auf und nutzen dabei Korrelationen innerhalb der Daten (z.B. Conditional Score-based Diffusion models for Imputation (CSDI), Structured State Space Diffusion (SSSD)).
- 
Zeitreihen-Vorhersage: Diffusionsmodelle werden zur Prognose zukünftiger Werte in Zeitreihen eingesetzt.
Interdisziplinäre Anwendungen
Diffusionsmodelle finden auch in spezifischen wissenschaftlichen Disziplinen Anwendung:
- 
Bioinformatik und Computerbiologie: Sie werden für Proteindesign und -generierung, Molekülgenerierung und Wirkstoffdesign, Protein-Liganden-Interaktionsmodellierung, Analyse von Cryo-Elektronenmikroskopie-Daten und Einzelzell-Datenanalyse eingesetzt.
Fazit
Diffusionsmodelle stellen eine signifikante Weiterentwicklung in der generativen KI dar. Ihre mathematische Eleganz, gepaart mit der Fähigkeit, hochqualitative und diverse Daten zu generieren, hat sie zu einem unverzichtbaren Werkzeug in zahlreichen wissenschaftlichen und angewandten Bereichen gemacht. Die kontinuierliche Forschung zur Verbesserung ihrer Effizienz, Likelihood-Schätzung und Anpassungsfähigkeit an spezifische Datenstrukturen verspricht weitere Fortschritte und eine noch breitere Palette von Anwendungen in der Zukunft.
Bibliographie
- Lai, C.-H., Song, Y., Kim, D., Mitsufuji, Y., & Ermon, S. (2025). The Principles of Diffusion Models. alphaXiv.
- Ghodsi, A. (2024). Diffusion Models: Tutorial and Survey. HAL Science.
- Yang, L., Zhang, Z., Song, Y., Hong, S., Xu, R., Zhao, Y., Zhang, W., Cui, B., & Yang, M.-H. (2023). Diffusion Models: A Comprehensive Survey of Methods and Applications. arXiv.
- ICLR Blog. (2024). Building Diffusion Model's theory from ground up.
- Sahoo, S. S., Gokaslan, A., De Sa, C., & Kuleshov, V. (2024). Diffusion Models With Learned Adaptive Noise. NeurIPS.
- Guo, Z., Liu, J., Wang, Y., Chen, M., Wang, D., Xu, D., & Cheng, J. (2023). Diffusion models in bioinformatics and computational biology. Nat Rev Bioeng.
- Daras, G., Chung, H., Lai, C.-H., Mitsufuji, Y., Ye, J. C., Milanfar, P., Dimakis, A. G., & Delbracio, M. (2023). A Survey on Diffusion Models for Inverse Problems. arXiv.