Neues Framework für multimodales Chain-of-Thought Reasoning in der Vision-Language Navigation

Kategorien:

No items found.

Freigegeben:

January 22, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

FantasyVLN ist ein neues Framework, das multimodales Chain-of-Thought (CoT) Reasoning für die Vision-Language Navigation (VLN) in Robotern integriert.
Es adressiert die Herausforderungen der Interpretierbarkeit und der Planung über lange Zeithorizonte in komplexen Umgebungen.
Das Framework nutzt eine vereinheitlichte Strategie, die textuelles, visuelles und multimodales CoT-Reasoning kombiniert.
Ein Schlüsselelement ist die Komprimierung von imaginierten visuellen Beobachtungen in einem kompakten latenten Raum mittels eines vortrainierten Visual AutoRegressor (VAR), um den Token-Overhead zu reduzieren.
FantasyVLN ermöglicht ein "Implicit Reasoning" während der Inferenz, wodurch die Vorteile des CoT-Reasoning ohne explizite Generierung von Zwischenschritten genutzt werden.
Dies führt zu einer erheblichen Reduzierung der Inferenzlatenz und verbessert gleichzeitig die Erfolgsraten und Effizienz der Navigation.
Experimente auf dem LH-VLN-Benchmark zeigen, dass FantasyVLN anderen Methoden in Bezug auf Navigationsgenauigkeit und Effizienz überlegen ist.

Einführung in die Vision-Language Navigation und Chain-of-Thought Reasoning

Die Fähigkeit von Robotern, natürliche Sprachbefehle zu verstehen und sich in komplexen visuellen Umgebungen zu bewegen, ist ein zentrales Forschungsfeld in der Robotik und Künstlichen Intelligenz. Diese Disziplin, bekannt als Vision-Language Navigation (VLN), erfordert eine gemeinsame Verarbeitung von sprachlichen Anweisungen und visuellen Informationen. Ein entscheidender Aspekt hierbei ist das sogenannte Chain-of-Thought (CoT) Reasoning, das Large Language Models (LLMs) ermöglicht, komplexe Probleme durch die Generierung von Zwischenschritten zu lösen. Jüngste Fortschritte im CoT-Reasoning haben das Potenzial zur Verbesserung der Interpretierbarkeit und der langfristigen Planung in der VLN aufgezeigt.

Bestehende Ansätze im CoT-Reasoning für VLN stoßen jedoch an Grenzen. Rein textuelle CoTs mangeln an räumlicher Erdung und neigen dazu, sich an spärlich annotierten Reasoning-Schritten zu überanstrengen. Multimodale CoTs, die imaginierte visuelle Beobachtungen generieren, führen zu einer erheblichen Token-Inflation, was die Echtzeitnavigation unpraktikabel macht. Um diese Herausforderungen zu überwinden, wurde FantasyVLN entwickelt, ein vereinheitlichtes Framework für implizites multimodales Chain-of-Thought Reasoning.

Die Herausforderungen der Vision-Language Navigation

Die Vision-Language Navigation stellt hohe Anforderungen an autonome Agenten. Sie müssen nicht nur die Semantik von Sprache und die räumliche Geometrie aus visuellen Beobachtungen verstehen, sondern auch über lange Aktionssequenzen hinweg planen können. Insbesondere in mehrstufigen und langfristigen Navigationsszenarien ist die robuste multimodale Argumentationsfähigkeit – die Integration von sprachlicher Absicht mit visuell-räumlichem Kontext über längere Zeiträume hinweg – von entscheidender Bedeutung. Trotz der Fortschritte bei multimodalen Large Models bleibt die effektive modalitätsübergreifende Argumentation in VLN aufgrund der semantisch-räumlichen Lücke und des Bedarfs an interpretierbaren und gleichzeitig sample-effizienten Argumentationsmechanismen eine Herausforderung.

Traditionelle VLN-Modelle trennen häufig die Wahrnehmung, das Verständnis der Anweisungen und die Aktionsplanung in diskrete Module. Diese Ansätze, oft basierend auf Imitations- oder Reinforcement Learning, leiden jedoch unter einer geringen semantischen Abstimmung und einer begrenzten Generalisierbarkeit in kontinuierlichen oder unbekannten Umgebungen. Neuere Studien konzentrieren sich auf End-to-End-Navigationsrichtlinien, die vortrainierte Vision-Language Models nutzen, aber auch diese stoßen bei der Planung für langfristige, mehrstufige Aufgaben an ihre Grenzen.

FantasyVLN: Ein neues Paradigma für multimodales Reasoning

FantasyVLN, ein Produkt des Fantasy AIGC Teams in Zusammenarbeit mit der Beijing University of Posts and Telecommunications und der Tsinghua University, schlägt ein vereinheitlichtes implizites Reasoning-Framework vor. Dieses Framework bewahrt die Vorteile des CoT-Reasoning, ohne den expliziten Token-Overhead zu verursachen. Die Kernidee besteht aus zwei Komponenten:

Kompakte Kodierung visueller Token: Während des Trainings werden imaginierte visuelle Token, die durch multimodales CoT-Reasoning erzeugt werden, mithilfe eines vortrainierten Visual AutoRegressor (VAR) in einen kompakten latenten Raum kodiert. Dies reduziert die Sequenzlänge und die Trainingskosten erheblich, ohne die Reichhaltigkeit des visuellen Reasonings zu beeinträchtigen.
Reasoning-bewusste Repräsentationen während der Inferenz: Bei der Inferenz führt das Modell eine direkte Abbildung von Anweisungen zu Aktionen durch, wobei es dennoch von Reasoning-bewussten Repräsentationen profitiert. Dies ist inspiriert vom "train-with-CoT, infer-without-CoT"-Paradigma.

Zusätzlich führt FantasyVLN eine vereinheitlichte Multi-CoT-Trainingsstrategie ein, die gemeinsam aus rein textuellen, rein visuellen und textuell-visuellen CoT-Modi lernt. Dies geschieht unter Verwendung eines speziellen Tag-Tokens zur Kennzeichnung jedes Modus. Dieses Design vereinheitlicht sowohl das Eingabeformat als auch die Modellparameter innerhalb eines einzigen Frameworks. Während des Trainings werden die Aktionsvorhersagen aus CoT-basierten Reasoning-Modi mit denen der direkten Vorhersage (ohne CoT) abgeglichen, wodurch modalitätsinvariante Reasoning-Repräsentationen erzwungen werden. Infolgedessen erlernt das Modell implizite Reasoning-Fähigkeiten, die effektiv generalisieren, ohne explizite CoT-Supervision oder Überanpassung an Trainingsverteilungen.

Die Rolle des Compact Visual Chain-of-Thought (CompV-CoT)

Konventionelles visuelles CoT-Reasoning (V-CoT) sagt Tausende von visuellen Token bei jedem Reasoning-Schritt voraus, was zu geringer Trainingseffizienz und hoher Inferenzlatenz führt. Um dies zu beheben, integriert FantasyVLN das Compact Visual Chain-of-Thought (CompV-CoT). Dabei wird ein vortrainiertes Large Vision-Language Model (VLM) wie Qwen2.5-VL darauf trainiert, direkt einen kompakten Satz visueller Token im latenten Raum eines vortrainierten VAR-Modells zu generieren. Dies resultiert in einer neuartigen, komprimierten visuellen CoT-Repräsentation mit wesentlich weniger Token.

Der VAR-Modell folgt einem Next-Scale-Prediction-Paradigma, um visuelle Informationen hierarchisch zu kodieren, was eine höhere Effizienz als herkömmliche Autoencoding-Ansätze (wie VAE oder VQ-VAE) ermöglicht. Bei einem 256x256-Bild kann das VAR-Modell eine präzise Rekonstruktion unter Verwendung der entsprechenden Low-Scale-Repräsentationen erreichen, die nur 30 visuelle Token enthalten. Im Vergleich zu anderen visuellen Kompressoren erzielt VAR ein höheres Kompressionsverhältnis bei vergleichbarer Rekonstruktionsqualität.

Während des Trainings wird das VAR-Modell eingefroren, während das VLM zunächst lernt, latente zukünftige Beobachtungen vorherzusagen und dann die entsprechenden Aktionen abzuleiten. Während der Inferenz wird nur das VLM verwendet, um die visuell-CoT-basierte Navigation ohne explizite VAR-Dekodierung durchzuführen. Dies verbessert sowohl die Trainings- als auch die Inferenz-Effizienz.

Vereinheitlichtes multimodales CoT-Reasoning (UM-CoT)

Aufbauend auf CompV-CoT präsentiert FantasyVLN ein Unified Multimodal Chain-of-Thought (UM-CoT)-Framework, das textuelles, komprimiertes visuelles und multimodales Reasoning innerhalb eines einzigen Agenten integriert.

Textuelles CoT (T-CoT): Modelliert das Reasoning des Agenten als expliziten semantischen Planungsprozess, der das Sprachverständnis und die Aktionsentscheidung miteinander verbindet. Der Agent generiert zuerst textuelle Zwischenschritte, die strukturierte kausale Anweisungen für die Vorhersage nachfolgender Aktionen liefern.
CompV-CoT als visuelles CoT: Der Agent stellt sich zukünftige Beobachtungen im latenten Raum des VAR vor, indem er komprimierte visuelle Token vorhersagt, und leitet dann Aktionen ab, die von der imaginierten latenten Trajektorie abhängen.
Multimodales CoT (MM-CoT): Eine Kombination aus T-CoT und CompV-CoT, bei der der Agent gepaarte textuell-visuelle Reasoning-Schritte generiert. Diese multimodale Reasoning-Spur kodiert gemeinsam semantische Pläne und imaginierte zukünftige Beobachtungen, um die nachfolgende Aktionsvorhersage zu steuern.

Um diese Reasoning-Modi innerhalb eines einzigen Frameworks zu vereinheitlichen, werden zwei binäre Gating-Signale eingeführt, die steuern, ob textuelles und visuelles Reasoning aktiviert wird. Dieser Gating-Mechanismus ermöglicht es einer einzigen Policy, flexibel in Non-CoT, T-CoT, CompV-CoT und MM-CoT-Modi zu operieren.

Cross-Mode Alignment Constraint

Um Konflikte zwischen verschiedenen Reasoning-Modi zu verhindern, führt FantasyVLN eine Cross-Mode Alignment Constraint ein. Die Kernidee ist, den Non-CoT-Reasoning-Modus als Überwachungssignal zu verwenden, um alle CoT-Varianten auszurichten. Dadurch werden verschiedene Reasoning-Verhaltensweisen in eine gemeinsame latente Policy eingebettet. Dies stellt sicher, dass das Modell konsistente, modalitätsinvariante Reasoning-Repräsentationen lernt.

Experimentelle Ergebnisse und Effizienz

Umfassende Experimente auf dem anspruchsvollen LH-VLN-Benchmark, der sich durch mehrstufige Aufgaben und lange Navigationspfade auszeichnet, demonstrieren die Leistungsfähigkeit von FantasyVLN. Der Benchmark bewertet die Navigationsgenauigkeit anhand von Metriken wie Success Rate (SR), Independent Success Rate (ISR), Conditional Success Rate (CSR) und CSR weighted by Ground Truth (CGT).

Navigationsgenauigkeit

FantasyVLN erzielt überlegene Leistungen in allen Metriken. Im Vergleich zu existierenden textuellen und visuellen CoT-basierten Methoden sowie speicherbasierten Ansätzen übertrifft FantasyVLN diese deutlich. Beispielsweise erreicht es eine SR von 2,44, eine ISR von 11,01, eine CSR von 9,64 und eine CGT von 8,99. Dies deutet darauf hin, dass die vereinheitlichte multimodale implizite Reasoning-Architektur entscheidend für die Bewältigung komplexer, mehrstufiger VLN-Aufgaben ist.

Die Integration aller vier Reasoning-Modi (Non-CoT, T-CoT, V-CoT und MM-CoT) während des Trainings verbessert die Gesamtleistung weiter. Dies bestätigt den Beitrag jedes einzelnen Reasoning-Modus zum Framework.

Inferenz-Effizienz

Ein wesentlicher Vorteil von FantasyVLN liegt in seiner Inferenz-Effizienz. Implizite Reasoning-Modelle, darunter FantasyVLN, Aux-Think und WorldVLA, weisen eine vergleichbare Effizienz auf und übertreffen explizite Ansätze wie CoT-VLA erheblich. Während implizites Reasoning jede Aktion durch Dekodierung eines einzelnen Tokens vorhersagt, erfordert explizites Reasoning die Generierung von CoT-Schritten mit Tausenden von Token. Bei ähnlichen Modellgrößen prognostiziert implizites CoT-Reasoning etwa eine Aktion pro Sekunde, während explizites CoT-Reasoning nur 0,19 Aktionen pro Sekunde liefert. Dies macht implizites Reasoning besser geeignet für die Echtzeitanforderungen von VLN-Aufgaben.

Fazit und Ausblick

FantasyVLN stellt einen signifikanten Fortschritt in der Vision-Language Navigation dar, indem es ein vereinheitlichtes implizites Reasoning-Framework bietet, das die Vorteile des Chain-of-Thought-Reasoning bewahrt, ohne die mit expliziten CoT-Methoden verbundene Token-Inflation. Durch die Komprimierung imaginierter visueller Beobachtungen in einem kompakten latenten Raum und die gemeinsame Schulung über verschiedene CoT-Modi hinweg, lernt das Framework modalitätsinvariante Reasoning-Repräsentationen. Dies ermöglicht eine effiziente und genaue Navigation in Echtzeit.

Die experimentellen Ergebnisse auf dem anspruchsvollen LH-VLN-Benchmark unterstreichen die Überlegenheit von FantasyVLN in Bezug auf Navigationsgenauigkeit und Effizienz, bei gleichzeitiger Reduzierung der Inferenzlatenz um eine Größenordnung im Vergleich zu expliziten CoT-Baselines. Diese Erkenntnisse deuten darauf hin, dass implizites multimodales Reasoning einen praktikablen Weg zu einer echtzeitfähigen, verkörperten Navigation ebnet und das Potenzial kompakter latenter Reasoning-Signale hervorhebt, um die Lücke zwischen semantischer Absicht und räumlicher Entscheidungsfindung in komplexen Umgebungen zu schließen.

Zukünftige Arbeiten könnten sich auf die weitere Optimierung der latenten Raumdarstellungen und die Erkundung neuer Anwendungsbereiche für dieses effiziente Reasoning-Paradigma konzentrieren, um die Robustheit und Generalisierbarkeit von VLN-Systemen weiter zu verbessern.

Bibliographie

- Zuo, J., Mu, L., Jiang, F., Ma, C., Xu, M., & Qi, Y. (2026). FantasyVLN: Unified Multimodal Chain-of-Thought Reasoning for Vision-Language Navigation. *arXiv preprint arXiv:2601.13976*. - GitHub: Fantasy AIGC Family. (n.d.). Abgerufen von https://github.com/Fantasy-AMAP - Hugging Face: acvlab (Alibaba AMAP CV Lab). (n.d.). Abgerufen von https://huggingface.co/acvlab - Hugging Face: Daily Papers. (n.d.). Abgerufen von https://huggingface.co/papers/week/2026-W04 - Hugging Face Paper Explorer: Top Last 3 Days. (n.d.). Abgerufen von https://huggingface-paper-explorer.vercel.app/ - Kang, J. (n.d.). Computer Vision and Pattern Recognition | Cool Papers. Abgerufen von https://papers.cool/arxiv/cs.CV?show=150 - alphaXiv: robotics. (n.d.). Abgerufen von https://www.alphaxiv.org/?subcategories=robotics - Zhao, Q. et al. (2025). CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models. In *Proceedings of the IEEE/CVF Computer Vision and Pattern Recognition Conference*. - Lu, P. et al. (2022). Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering. In *Advances in Neural Information Processing Systems*.