Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Diffusionsmodelle haben in den letzten Jahren beeindruckende Fortschritte in der Bildgenerierung erzielt. Trotz ihrer Fähigkeit, hochqualitative und vielfältige Bilder zu erzeugen, kämpfen diese Modelle häufig mit sogenannten "Halluzinationen" oder semantischen Inkonsistenzen. Diese äußern sich beispielsweise in Objekten, die nicht zur Szene passen, oder anatomisch unplausiblen Strukturen wie zusätzlichen Fingern. Eine neue Forschung, die als "Tangential Amplifying Guidance" (TAG) bekannt ist, schlägt einen innovativen Ansatz vor, um diese Probleme zu mindern und gleichzeitig die Effizienz der Bildgenerierung zu steigern.
Halluzinationen in Diffusionsmodellen treten auf, wenn generierte Samples die zugrundeliegende Datenverteilung verletzen oder im Widerspruch zu den gegebenen Bedingungen stehen. Dies führt zu Ausgaben, die nicht aussagekräftig oder fehlerhaft sind. Aktuelle Erkenntnisse legen nahe, dass die Hauptursache dieser Fehler in einem Modus-Interpolationsfehler liegt. Während des Sampling-Prozesses können Trajektorien durch Regionen niedriger Dichte zwischen verschiedenen Modi der Datenverteilung verlaufen, was zu Attribut-Fehlern und strukturellen Ungereimtheiten führt.
Bisherige Ansätze zur Verbesserung der Generierungsqualität, sogenannte "Inference-Time Guidance"-Methoden, basieren oft auf externen Signalen oder architektonischen Modifikationen. Diese Methoden können effektiv sein, sind jedoch meist indirekt und verursachen zusätzlichen Rechenaufwand. Sie steuern den Generierungsprozess, indem sie wiederholt von einem unbedingten Schätzwert in jedem Schritt abweichen, anstatt sich entlang der intrinsischen Geometrie der Datenverteilung zu bewegen.
TAG verfolgt einen effizienteren und direkteren Ansatz. Die Methode operiert ausschließlich auf Trajektoriensignalen, ohne das zugrundeliegende Diffusionsmodell zu modifizieren. Der Kern von TAG liegt in der Nutzung eines Zwischen-Samples als Projektionsbasis und der gezielten Verstärkung der tangentialen Komponenten der geschätzten Scores. Diese Verstärkung korrigiert die Sampling-Trajektorie und lenkt den Zustand in Regionen höherer Wahrscheinlichkeit, wodurch Inkonsistenzen reduziert und die Sample-Qualität verbessert werden.
Die Formalisierung dieses Führungsprozesses basiert auf einer Taylor-Expansion erster Ordnung. Diese zeigt, dass die Verstärkung der tangentialen Komponente den Zustand in Bereiche höherer Wahrscheinlichkeit lenkt, was zu einer Reduzierung von Inkonsistenzen und einer Verbesserung der Sample-Qualität führt.
Die Motivation für TAG leitet sich aus Tweedies Formel ab, die den Score (den Gradienten der logarithmischen Marginaldichte) mit dem posterioren Mittelwert des sauberen Signals unter Gaußschem Rauschen in Verbindung bringt. Geometrisch deutet das Score-Feld in die Richtung des steilsten Anstiegs der Marginaldichte. Tweedies Formel passt den Zustand in dieser Aufstiegsrichtung an und drängt ihn in Regionen höherer Wahrscheinlichkeit.
Allerdings kann ein naives Anstreben von Regionen höherer Wahrscheinlichkeit die vorgesehene Radius-/SNR-Trajektorie stören und die Sample-Qualität beeinträchtigen. Um dies zu vermeiden, isoliert TAG den Inkrement und gewichtet nur den tangentialen Anteil neu, indem es ihn in normale und tangentiale Teile relativ zum aktuellen Zustand zerlegt. Der normale Anteil bleibt dabei unverändert, während der tangentiale Anteil verstärkt wird. Dadurch wird der radiale Anteil erster Ordnung bewahrt, während der Schritt in Richtung höherer Wahrscheinlichkeit gelenkt wird.
Ein zentrales Theorem beweist, dass eine Erhöhung des tangentialen Verstärkungsfaktors zu einer monotonen Steigerung des Taylor-Gewinns erster Ordnung führt. Dies bedeutet, dass TAG den Sampler in Regionen höherer Dichte des Datenraums lenkt und somit die Bildqualität verbessert. Die Verstärkung der normalen Komponente würde hingegen zu einer übermäßigen radialen Kontraktion und einer "Überglättung" der Bilder führen.
TAG ist als "plug-and-play"-Modul konzipiert, das sich nahtlos in bestehende Diffusions-Backbones integrieren lässt, ohne zusätzliche Denoising-Evaluierungen oder ein erneutes Training zu erfordern. Es wurde mit verschiedenen Modellen wie Stable Diffusion v1.5, v2.1, SDXL und SD3 sowie Samplern wie DDIM und DPM++ getestet.
Bei der unbedingten Generierung verbessert TAG die Sample-Qualität konsistent über verschiedene Modelle und Sampler hinweg. Es reduziert den Fréchet Inception Distance (FID)-Wert und erhöht den Inception Score (IS)-Wert bei gleicher Anzahl von Funktionsevaluierungen (NFEs). Bemerkenswert ist, dass TAG als Ergänzung zu bestehenden Guidance-Methoden (z.B. SAG, PAG, SEG) deren Leistung ohne architektonische Änderungen oder zusätzliche Modell-Evaluierungen verbessert.
TAG ermöglicht zudem eine höhere Qualität bei schnellerer Inferenz. Mit Samplern wie DDIM und DPM++ können mit TAG überlegene Ergebnisse mit nur der Hälfte der NFEs erzielt werden. Gleichzeitig steigert es die Leistung von Basismodellen wie SD v2.1 und SDXL bei festen Rechenkosten erheblich. Dieser doppelte Vorteil bietet einen praktischen Weg zu schnellerer Inferenz und erstreckt sich auch auf modernste Modelle wie SD3.
Auch in der bedingten Generierung zeigt TAG deutliche Verbesserungen. In Classifier-Free Guidance (CFG) kann eine Inkohärenz zwischen den bedingten und unbedingten Branches entstehen, die die Generierungsqualität mindert. Conditional TAG (C-TAG) begegnet diesem Problem, indem es einen bedingungsrelativen Tangenten einführt, der die Inkohärenz der tangentialen Komponenten ausgleicht und verstärkt.
Experimente auf dem MS-COCO-Datensatz zeigen, dass die Erweiterung bestehender Guidance-Sampler um TAG die Sample-Fidelity erheblich verbessert, während die Text-Bild-Ausrichtung weitestgehend erhalten bleibt. TAG ermöglicht es beispielsweise, dass ein Sampling-Prozess mit 30 NFEs die Leistung eines CFG-Baselines mit 100 NFEs übertrifft. Selbst in einem rein bedingten Setting reduziert TAG den FID-Wert drastisch und erhöht den CLIPScore, was seine grundlegenden Vorteile unabhängig von einem Guidance-Signal bestätigt.
Obwohl TAG vielversprechende Ergebnisse liefert, gibt es Grenzen. Eine moderate tangentiale Verstärkung verbessert die Qualität, während übermäßig hohe Verstärkungswerte zu einer Leistungsverschlechterung führen können. Dies liegt daran, dass ein zu hoher Verstärkungsfaktor die radiale Kalibrierung des Schedulers stören kann, was zu einer Überglättung führt.
Zukünftige Forschungsarbeiten könnten sich darauf konzentrieren, diese höherrangigen Effekte zu modellieren und adaptive Verstärkungswerte zu entwickeln. Dies könnte zu einer hyperparameterfreien Variante von TAG führen, die noch robuster und benutzerfreundlicher ist.
Tangential Amplifying Guidance (TAG) bietet eine neue Perspektive zur Bewältigung des Problems von Halluzinationen in Diffusionsmodellen. Durch die Erkenntnis, dass die tangentiale Komponente des Sampling-Updates entscheidende semantische Strukturen kodiert, schlägt TAG eine praktische, architekturunabhängige Methode vor, die diese Komponente verstärkt. Dadurch lenkt TAG die Sampling-Trajektorie effektiv in Regionen höherer Dichte des Datenraums, was zu Samples mit weniger Halluzinationen und verbesserter Fidelity führt. Die Methode erfordert kein erneutes Training und verursacht keinen signifikanten zusätzlichen Rechenaufwand, was sie zu einer praktischen "plug-and-play"-Lösung für die Verbesserung bestehender Diffusionsmodell-Backbones macht. Dies stellt einen wichtigen Schritt dar, die Zuverlässigkeit und Qualität von KI-generierten Inhalten weiter zu erhöhen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen