Neues Framework für visuelles Co-Denoising und seine Auswirkungen auf generative Modelle

Kategorien:

No items found.

Freigegeben:

March 20, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

V-Co ist ein neues Framework für die visuelle Co-Denoising-Methode in pixelbasierten Diffusionsmodellen, das die Bildgenerierungsqualität verbessert.
Die Forschung identifiziert vier Schlüsselelemente für effektives visuelles Co-Denoising: eine Dual-Stream-Architektur, strukturelle Maskierung für Classifier-Free Guidance (CFG), einen Perceptual-Drifting Hybrid Loss und RMS-basierte Feature-Reskalierung.
V-Co übertrifft bestehende pixelbasierte Diffusionsmodelle und erzielt vergleichbare oder bessere Ergebnisse als größere Modelle bei geringerem Trainingsaufwand.
Die Methode verbessert die semantische Ausrichtung und generative Qualität, was durch quantitative Metriken wie FID und IS auf dem ImageNet-256-Datensatz belegt wird.
S-VCO, eine weitere Entwicklung, konzentriert sich auf die Reduzierung visueller Halluzinationen in großen Vision-Language Modellen (VLMs) durch symmetrische visuelle kontrastive Optimierung und ein neuartiges Dataset (MVC).
S-VCO verbessert die VLM-Leistung in verschiedenen Bereichen, insbesondere bei visuell abhängigen Aufgaben und der Reduzierung von Halluzinationen.

Die Forschung im Bereich der künstlichen Intelligenz schreitet kontinuierlich voran, insbesondere im Bereich der generativen Modelle und der multimodalen KI. Aktuelle Arbeiten konzentrieren sich auf die Verbesserung der Qualität und Effizienz von Bildgenerierungsmodellen sowie auf die Verringerung von "Halluzinationen" in Vision-Language Modellen (VLMs). Zwei bemerkenswerte Entwicklungen in diesem Kontext sind V-Co, ein Framework für visuelles Co-Denoising, und S-VCO, eine Methode zur symmetrischen visuellen kontrastiven Optimierung.

V-Co: Ein tieferer Einblick in die visuelle Repräsentationsausrichtung durch Co-Denoising

Die Generierung hochwertiger Bilder mittels Diffusionsmodellen stellt einen zentralen Forschungsbereich dar. Während latente Diffusionsmodelle, die im komprimierten Autoencoder-Raum arbeiten, weit verbreitet sind, gewinnen pixelbasierte Diffusionsmodelle zunehmend an Bedeutung. Diese Modelle, die direkt im Pixelraum arbeiten und auf Transformer-Architekturen basieren, vermeiden die durch Autoencoder verursachten Verzerrungen und Engpässe. Allerdings mangelt es standardmäßigen pixelbasierten Diffusionsmodellen oft an einer expliziten semantischen Überwachung, was die Erfassung hochstufiger visueller Strukturen erschwert.

Die Rolle der Repräsentationsausrichtung

Jüngste Methoden zur Repräsentationsausrichtung haben gezeigt, dass vorab trainierte visuelle Merkmale das Diffusionstraining erheblich verbessern können. Visuelles Co-Denoising, bei dem Bildlatente zusammen mit semantischen Merkmalen oder anderen Modalitäten generiert werden, ist ein vielversprechender Ansatz, um solche Merkmale in den generativen Prozess zu integrieren. Bestehende Co-Denoising-Ansätze verknüpfen jedoch oft mehrere Designentscheidungen, wodurch unklar bleibt, welche Komponenten tatsächlich entscheidend sind.

V-Co: Eine systematische Untersuchung

V-Co (Visual Co-Denoising) ist eine systematische Studie des visuellen Co-Denoising innerhalb eines vereinheitlichten JiT-basierten Frameworks. Diese kontrollierte Umgebung ermöglichte die Isolation der entscheidenden Faktoren für effektives visuelles Co-Denoising. Die Studie identifizierte vier Schlüsselkomponenten:

Vollständige Dual-Stream-Architektur: Diese Architektur ermöglicht eine flexible Interaktion zwischen Merkmalen, während die merkmalspezifische Berechnung erhalten bleibt. Dies ist entscheidend, da es dem Modell erlaubt, adaptiv zu bestimmen, wo und wie die beiden Streams interagieren.
Strukturelle semantisch-zu-pixel Maskierung für Classifier-Free Guidance (CFG): Für eine effektive CFG ist eine strukturell definierte bedingungslose Vorhersage erforderlich. Die vorgeschlagene Methode maskiert explizit den semantisch-zu-pixel Pfad, anstatt sich nur auf Eingabe-Level-Korruption zu verlassen. Dies führt zu einer zuverlässigeren bedingungslosen Vorhersage.
Perceptual-Drifting Hybrid Loss: Stärkere semantische Überwachung wird durch eine Kombination aus instanzbasierter semantischer Ausrichtung und verteilungsbasierter Regularisierung erzielt. Dieser hybride Ansatz verbessert die Generierungsqualität, indem er sowohl die lokale Detailtreue als auch die globale Verteilungsabdeckung optimiert.
RMS-basierte Feature-Reskalierung: Eine stabile Co-Denoising-Methode erfordert eine korrekte Cross-Stream-Kalibrierung. Die RMS-basierte Reskalierung der Merkmale stellt sicher, dass die semantischen Merkmale die gleiche RMS-Größe wie das Pixelsignal aufweisen, was eine ausgewogene Denoising-Schwierigkeit gewährleistet.

Empirische Ergebnisse und Skalierbarkeit

Experimente auf ImageNet-256 zeigten, dass V-Co bei vergleichbaren Modellgrößen die zugrunde liegende pixelbasierte Diffusions-Baseline und frühere Pixel-Diffusionsmethoden übertrifft, während es weniger Trainings-Epochen benötigt. Beispielsweise erreicht V-Co-B/16 mit 260 Millionen Parametern die Leistung von JiT-L/16 mit 459 Millionen Parametern. Größere V-Co-Varianten übertreffen sogar JiT-G/16 mit 2 Milliarden Parametern, was die Effektivität und Skalierbarkeit des Ansatzes unterstreicht.

S-VCO: Symmetrische visuelle kontrastive Optimierung zur Reduzierung von Halluzinationen in VLMs

Große Vision-Language Modelle (VLMs) zeigen oft eine Tendenz, visuelle Inhalte zu vernachlässigen und sich zu stark auf Sprachmodell-Priors zu verlassen. Dies führt zu Fehlern in visuell geerdeten Aufgaben und sogenannten "visuellen Halluzinationen", bei denen das Modell Inhalte generiert, die im Bild nicht vorhanden sind oder falsch interpretiert werden. Symmetrical Visual Contrastive Optimization (S-VCO) ist ein neuer Finetuning-Ansatz, der dieses Problem angeht.

Das Problem der visuellen Halluzinationen

Studien haben gezeigt, dass VLMs nur begrenzte Leistungssteigerungen erzielen, wenn visuelle Eingaben aktiviert sind, im Vergleich zu Fällen ohne visuelle Eingaben. Die Perplexität-basierte Bewertung eines Basis-VLM zeigte beispielsweise, dass die Perplexität am niedrigsten ist, wenn keine Bildeingabe vorhanden ist, und am höchsten, wenn ein passendes Bild präsentiert wird. Dies deutet darauf hin, dass das Modell dazu neigt, visuelle Informationen zu ignorieren, selbst wenn diese für die Generierung genauer Texte entscheidend sind.

S-VCO: Ein symmetrischer Ansatz

S-VCO schlägt eine rein kontrastive Trainingsmethode vor, bei der das Modell für die genaue Korrespondenz zwischen visuellen Details und Text-Tokens belohnt wird. Im Gegensatz zu früheren Ansätzen, die visuelle Überwachung als "präferentielles" Tuning-Paradigma behandeln (wobei ein Originalbild einem beschnittenen oder verrauschten Bild vorgezogen wird), führt S-VCO eine Symmetrie ein. Hierbei wird das "negative" Bild als "bevorzugte" visuelle Bedingung behandelt, wenn es mit seinem entsprechenden Text gepaart wird. Dies verhindert, dass das Modell Abkürzungen lernt, indem es "unrealistische" Bilder ablehnt, ohne die visuellen Details, die mit den Text-Tokens zusammenhängen, vollständig zu verstehen.

Das Minimal Visual Contrasts (MVC) Dataset

Um S-VCO zu ergänzen, wurde das MVC-Dataset entwickelt. Es besteht aus Bildpaaren mit minimalen, aber bedeutungsvollen visuellen Variationen, begleitet von entsprechenden kontrastiven Texten. Das Dataset umfasst vier Hauptkontrasttypen:

Objektersetzung: Änderung eines bestimmten Objekts.
Attributersetzung: Modifikation von Merkmalen eines Objekts (z. B. Farbe, Form, Größe).
Anzahlmodifikation: Änderung der Anzahl von Objekten.
Positionswechsel: Umkehrung der relativen Positionen von Objekten.

Das MVC-Dataset wird durch einen vision-zentrierten Filter und ein LLM-Augmentierungsschema erstellt, um visuell anspruchsvolle Paare auszuwählen und Texte zu diversifizieren. Dies gewährleistet, dass das Dataset auf bedeutungsvolle visuelle Kontraste fokussiert und gleichzeitig semantische Relevanz und Schwierigkeit für das VLM beibehält.

Leistungsverbesserungen

Experimente zeigen, dass S-VCO die VLM-Leistung über verschiedene Benchmarks hinweg konsistent verbessert. Besonders signifikante Gewinne werden bei der Reduzierung visueller Halluzinationen (bis zu 22% Reduktion) sowie bei vision-zentrierten und allgemeinen Aufgaben erzielt. Die Verbesserungen werden zunehmend ausgeprägter in Benchmarks mit höherer visueller Abhängigkeit, was die Fähigkeit von S-VCO unterstreicht, die Erkennung visueller Details zu stärken. Qualitativ zeigt S-VCO ein überlegenes Verständnis für feinkörnige visuelle Details und die Fähigkeit, über komplexe Szenen zu räsonieren. Es kann subtile visuelle Unterschiede erkennen und ist widerstandsfähiger gegenüber Halluzinationen.

Integration und zukünftige Perspektiven

Sowohl V-Co als auch S-VCO repräsentieren wichtige Fortschritte in der KI-Forschung. V-Co verbessert die Bildgenerierung durch eine präzisere Ausrichtung visueller Repräsentationen, während S-VCO die Zuverlässigkeit von VLMs in Bezug auf visuelle Inhalte erhöht. Beide Ansätze tragen dazu bei, die Leistung und die Interpretierbarkeit von KI-Modellen zu verbessern, indem sie die Interaktion zwischen verschiedenen Modalitäten optimieren und die Modelle dazu anleiten, visuelle Informationen genauer zu verarbeiten.

Zukünftige Arbeiten könnten die Integration dieser Frameworks in noch umfassendere multimodale Systeme untersuchen, um beispielsweise die Text-zu-Bild-Synthese mit einer stärkeren semantischen Kontrolle und einer geringeren Anfälligkeit für Halluzinationen zu ermöglichen. Die kontinuierliche Entwicklung in diesen Bereichen ist entscheidend für die Schaffung von KI-Systemen, die nicht nur beeindruckende Ergebnisse liefern, sondern auch zuverlässig und vertrauenswürdig sind.

Die vorgestellten Forschungsergebnisse bieten wertvolle Einblicke und praktische Anleitungen für die Entwicklung zukünftiger generativer Modelle und multimodaler KI-Anwendungen, was für B2B-Zielgruppen, die an der Implementierung und Weiterentwicklung von KI-Lösungen interessiert sind, von großer Relevanz ist.

Bibliography - Wu, S., Sun, F.-Y., Wen, K., & Haber, N. (2025). Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images. arXiv preprint arXiv:2502.13928. - Lin, H., Pan, X., Wang, Z., Zhang, Y., Wang, C., Cho, J., & Bansal, M. (2026). V-Co: A Closer Look at Visual Representation Alignment via Co-Denoising. arXiv preprint arXiv:2603.16792. - AK (@_akhaliq) Threads. (n.d.). Retrieved from https://www.threads.com/@_akhaliq - akhaliq (AK) - Hugging Face. (n.d.). Retrieved from https://huggingface.co/akhaliq - S-VCO. (n.d.). Retrieved from https://s-vco.github.io/ - Ahsen Khaliq - Hugging Face - LinkedIn. (n.d.). Retrieved from https://www.linkedin.com/in/ahsenkhaliq - Hugging Face Paper Page - V-Co: A Closer Look at Visual Representation Alignment via Co-Denoising. (n.d.). Retrieved from http://www.huggingface.co/papers/2603.16792 - Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images. (2025). ACL Anthology. Retrieved from https://aclanthology.org/2025.acl-long.1462.pdf