Innovativer Ansatz zur Verbesserung visueller Schlussfolgerungen in KI-Modellen

Kategorien:

No items found.

Freigegeben:

January 22, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Die Forschungsarbeit "Render-of-Thought: Rendering Textual Chain-of-Thought as Images for Visual Latent Reasoning" stellt einen neuartigen Ansatz vor, der visuelle "Gedankenketten" (Chain-of-Thought, CoT) in bildliche Darstellungen umwandelt, um das visuelle latente Denken in Large Vision-Language Models (LVLMs) zu verbessern.
Ein zentrales Element ist die Umformulierung des Denkens in LVLMs als posteriorer Inferenz mittels amortisierter variabler Inferenz (Amortized Variational Inference, AVI) und Generative Flow Networks (GFlowNets).
Das Modell LaCoT (Latent Chain-of-Thought) verwendet einen rationale Sampler und einen Antwortgenerator, der durch qualitativ hochwertige visuelle Begründungsketten gestärkt wird.
Es wurden spezifische Optimierungsstrategien entwickelt, darunter eine Token-Level Marginal Reward Approximation und ein Referenz-geführtes GFlowNet Fine-Tuning (RGFN), um die Effizienz und Diversität der generierten Begründungen zu steigern.
Eine neue Inferenz-Skalierungsstrategie, Bayesian Inference over N latent rationales (BiN), wurde implementiert, um die Auswahl optimaler Begründungen und Antworten zu verbessern und "Reward Hacking" zu vermeiden.
Empirische Ergebnisse zeigen, dass LaCoT die Leistungsfähigkeit von LVLMs auf verschiedenen Reasoning-Benchmarks, insbesondere im mathematischen und allgemeinen multimodalen Bereich, erheblich steigert.

Die fortschreitende Entwicklung von Künstlicher Intelligenz (KI) führt zu immer komplexeren Systemen, die nicht nur textliche, sondern auch visuelle Informationen verarbeiten und interpretieren können. Im Zentrum dieser Entwicklung stehen Large Vision-Language Models (LVLMs), die darauf abzielen, menschliche Denkprozesse, insbesondere das visuelle Schlussfolgern, zu imitieren und zu verbessern. Eine aktuelle Forschungsarbeit mit dem Titel "Render-of-Thought: Rendering Textual Chain-of-Thought as Images for Visual Latent Reasoning" stellt einen innovativen Ansatz vor, der textbasierte Gedankenketten in visuelle Darstellungen überführt, um das latente visuelle Denken in LVLMs zu optimieren.

Herausforderungen im visuellen Schlussfolgern

Das visuelle Schlussfolgern in LVLMs erfordert eine detaillierte Analyse von Bildern in Kombination mit sprachlichem Verständnis, um komplexe Aufgaben zu lösen. Aktuelle Trainingsalgorithmen wie Supervised Fine-Tuning (SFT) oder Proximal Policy Optimization (PPO) zeigen jedoch oft Schwächen in der Generalisierung auf unbekannte Aufgaben und sind anfällig für "Reward Hacking", bei dem Modelle hohe Bewertungen erzielen, ohne die zugrunde liegenden Probleme tatsächlich zu lösen. Diese Methoden konzentrieren sich hauptsächlich auf die Optimierung von Token-Verteilungen oder skalaren Belohnungen und erfassen die komplexen Abhängigkeiten in visuellen Begründungsketten nur unzureichend.

Ein neuer Ansatz: Latent Chain-of-Thought (LaCoT)

Um diese Limitationen zu überwinden, schlägt die Forschungsarbeit einen neuen Denkrahmen vor, der das visuelle Schlussfolgern in LVLMs als ein probabilistisches Inferenzproblem über latente Variablen neu formuliert. Dies geschieht unter Verwendung von amortisierter variabler Inferenz (Amortized Variational Inference, AVI) und Generative Flow Networks (GFlowNets). Ziel ist es, reichhaltige, expressive probabilistische Modelle zu ermöglichen, die Unsicherheiten und verborgene Strukturen besser erfassen können, ohne direkte Überwachung zu benötigen.

Amortisierte Varianteninferenz für latentes visuelles CoT

Der Kern des vorgeschlagenen Modells, genannt LaCoT, liegt in der Fähigkeit, latente CoT-Sequenzen in LVLMs zu erzeugen und über verschiedene visuelle Reasoning-Aufgaben hinweg zu generalisieren. Hierfür werden drei Hauptkomponenten eingeführt:

1. Token-Level Marginal Reward Approximation: Traditionelle Methoden haben Schwierigkeiten, Belohnungen auf Token-Ebene in langen Begründungsketten zu berechnen. LaCoT adressiert dies durch eine lineare Interpolationsstrategie, die Belohnungen für Zwischenschritte effizient schätzt. Dies reduziert den Rechenaufwand erheblich, ohne die Genauigkeit wesentlich zu beeinträchtigen. Die Methode ermöglicht eine effizientere Exploration und diverse Stichproben, was die Generalisierbarkeit des Modells verbessert.

2. Referenz-geführtes GFlowNet Fine-Tuning (RGFN): Um das Problem des "katastrophalen Vergessens" (Catastrophic Forgetting) zu vermeiden, bei dem Modelle bei der Exploration bedeutungslosen Inhalt generieren, integriert RGFN einen referenzbasierten Mechanismus. Dieser Mechanismus leitet den Explorationsprozess an, höherwertige Begründungen zu generieren, indem er Kandidaten, die unter einer Referenzleistung liegen, vor der Gradientenberechnung verwirft. Dies reduziert die Varianz der Gradienten, ohne übermäßige Einschränkungen durch KL-Strafen (Kullback-Leibler-Divergenz) einzuführen.

3. Bayesian Inference over Latent Rationales (BiN): Bei der Inferenz verwendet LaCoT eine probabilistische Methode, BiN, um optimale Begründungen und Antworten zu finden. Im Gegensatz zu kostenintensiven Methoden wie Best-of-N (BoN) oder Beam Search, die oft von voreingenommenen Bewertungsmodellen abhängen, rankt BiN Antworten basierend auf einer prinzipiellen, längennormalisierten marginalen Wahrscheinlichkeit. Dies verbessert die Interpretierbarkeit und Skalierbarkeit der Inferenz.

Empirische Ergebnisse und Leistungsfähigkeit

Das LaCoT-Modell wurde auf Basis von Qwen2.5-VL-Modellen (3B und 7B Parameter) entwickelt und auf sieben Reasoning-Benchmarks getestet. Die Ergebnisse zeigen deutliche Verbesserungen gegenüber dem Stand der Technik:

- Das 7B-Modell von LaCoT erzielte eine Steigerung von 6,6% gegenüber seinem Basismodell und übertraf GRPO um 10,6%. - Das 3B-Modell übertraf sein Basismodell um 13,9% und erreichte bessere Ergebnisse als größere Modelle wie LLaVA-CoT-11B und LLaVA-OV-7B. - Insbesondere in mathematischen Reasoning-Aufgaben und bei der Diagramm-Interpretation zeigte LaCoT signifikante Fortschritte. In der Kategorie "MathVerse-Vision-only" stieg die Genauigkeit des 3B-Modells um 14 Punkte. - Qualitative Analysen belegen, dass LaCoT vielfältigere und kohärentere Begründungsketten erzeugen kann als bestehende Modelle.

Die Inferenz-Skalierungsstrategie BiN übertraf Best-of-N (BoN) konsistent auf allen visuellen Reasoning-Benchmarks, was ihre Effektivität als allgemeine Inferenzmethode für LVLMs unterstreicht. Ablationsstudien bestätigten die Wirksamkeit von RGFN und die Bedeutung der Anzahl der Kandidaten (N) und der Temperatur (T) für die Testgenauigkeit. Ein höheres N reduziert demnach Monte-Carlo-Varianz und verbessert die Abdeckung der Posterior-Verteilung, was auch Halluzinationen in visuellen Reasoning-Aufgaben entgegenwirkt.

Zukünftige Perspektiven

Die vorgestellte Methode birgt Potenzial für weitere Forschungsrichtungen, darunter die Wissensdestillation und die Generierung synthetischer Daten. Die Autoren betonen, dass die Kernideen auf andere autoregressive Modelle und unterschiedliche Modellgrößen übertragbar sind. Herausforderungen bleiben jedoch die Exploration in Aufgaben mit komplexen latenten Strukturen und die Reduzierung von Halluzinationen, die eng mit dem internen Wissen des Modells zusammenhängen.

Die Forschungsarbeit "Render-of-Thought: Rendering Textual Chain-of-Thought as Images for Visual Latent Reasoning" demonstriert einen vielversprechenden Weg, die Interpretierbarkeit und Zuverlässigkeit von LVLMs durch die Integration visueller Gedankenketten zu verbessern. Die Kombination aus amortisierter variabler Inferenz, referenzgeführtem Fine-Tuning und einer bayesianischen Inferenz-Skalierung bietet einen robusten Rahmen für die Entwicklung leistungsfähigerer multimodaler KI-Systeme.

Bibliographie

- Guohao Sun et al., "Latent Chain-of-Thought for Visual Reasoning", arXiv, 2025. - Emergent Mind, "Interleaved Latent Visual Reasoning (ILVR)", 2025. - Facebook, "The paper shows how to let vision language models think with compact visual thoughts inside the model, not just with words", 2025. - Chengzu Li et al., "Imagine while Reasoning in Space: Multimodal Visualization-of-Thought", arXiv, 2025. - Yushi Hu et al., "Visual Sketchpad: Sketching as a Visual Chain of Thought for Multimodal Language Models", arXiv, 2024. - Atif Quamar, "Learning Modal-Mixed Chain-of-Thought Reasoning with Latent Embeddings", 2025. - multimodal-art-projection, "multimodal-art-projection/LatentCoT-Horizon", GitHub. - Ethan Chern et al., "Thinking with Generated Images", arXiv, 2024. - Jiawei Gu et al., "ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning", arXiv, 2025.