Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Fähigkeit von Robotern, natürliche Sprachbefehle zu verstehen und sich in komplexen visuellen Umgebungen zu bewegen, ist ein zentrales Forschungsfeld in der Robotik und Künstlichen Intelligenz. Diese Disziplin, bekannt als Vision-Language Navigation (VLN), erfordert eine gemeinsame Verarbeitung von sprachlichen Anweisungen und visuellen Informationen. Ein entscheidender Aspekt hierbei ist das sogenannte Chain-of-Thought (CoT) Reasoning, das Large Language Models (LLMs) ermöglicht, komplexe Probleme durch die Generierung von Zwischenschritten zu lösen. Jüngste Fortschritte im CoT-Reasoning haben das Potenzial zur Verbesserung der Interpretierbarkeit und der langfristigen Planung in der VLN aufgezeigt.
Bestehende Ansätze im CoT-Reasoning für VLN stoßen jedoch an Grenzen. Rein textuelle CoTs mangeln an räumlicher Erdung und neigen dazu, sich an spärlich annotierten Reasoning-Schritten zu überanstrengen. Multimodale CoTs, die imaginierte visuelle Beobachtungen generieren, führen zu einer erheblichen Token-Inflation, was die Echtzeitnavigation unpraktikabel macht. Um diese Herausforderungen zu überwinden, wurde FantasyVLN entwickelt, ein vereinheitlichtes Framework für implizites multimodales Chain-of-Thought Reasoning.
Die Vision-Language Navigation stellt hohe Anforderungen an autonome Agenten. Sie müssen nicht nur die Semantik von Sprache und die räumliche Geometrie aus visuellen Beobachtungen verstehen, sondern auch über lange Aktionssequenzen hinweg planen können. Insbesondere in mehrstufigen und langfristigen Navigationsszenarien ist die robuste multimodale Argumentationsfähigkeit – die Integration von sprachlicher Absicht mit visuell-räumlichem Kontext über längere Zeiträume hinweg – von entscheidender Bedeutung. Trotz der Fortschritte bei multimodalen Large Models bleibt die effektive modalitätsübergreifende Argumentation in VLN aufgrund der semantisch-räumlichen Lücke und des Bedarfs an interpretierbaren und gleichzeitig sample-effizienten Argumentationsmechanismen eine Herausforderung.
Traditionelle VLN-Modelle trennen häufig die Wahrnehmung, das Verständnis der Anweisungen und die Aktionsplanung in diskrete Module. Diese Ansätze, oft basierend auf Imitations- oder Reinforcement Learning, leiden jedoch unter einer geringen semantischen Abstimmung und einer begrenzten Generalisierbarkeit in kontinuierlichen oder unbekannten Umgebungen. Neuere Studien konzentrieren sich auf End-to-End-Navigationsrichtlinien, die vortrainierte Vision-Language Models nutzen, aber auch diese stoßen bei der Planung für langfristige, mehrstufige Aufgaben an ihre Grenzen.
FantasyVLN, ein Produkt des Fantasy AIGC Teams in Zusammenarbeit mit der Beijing University of Posts and Telecommunications und der Tsinghua University, schlägt ein vereinheitlichtes implizites Reasoning-Framework vor. Dieses Framework bewahrt die Vorteile des CoT-Reasoning, ohne den expliziten Token-Overhead zu verursachen. Die Kernidee besteht aus zwei Komponenten:
Zusätzlich führt FantasyVLN eine vereinheitlichte Multi-CoT-Trainingsstrategie ein, die gemeinsam aus rein textuellen, rein visuellen und textuell-visuellen CoT-Modi lernt. Dies geschieht unter Verwendung eines speziellen Tag-Tokens zur Kennzeichnung jedes Modus. Dieses Design vereinheitlicht sowohl das Eingabeformat als auch die Modellparameter innerhalb eines einzigen Frameworks. Während des Trainings werden die Aktionsvorhersagen aus CoT-basierten Reasoning-Modi mit denen der direkten Vorhersage (ohne CoT) abgeglichen, wodurch modalitätsinvariante Reasoning-Repräsentationen erzwungen werden. Infolgedessen erlernt das Modell implizite Reasoning-Fähigkeiten, die effektiv generalisieren, ohne explizite CoT-Supervision oder Überanpassung an Trainingsverteilungen.
Konventionelles visuelles CoT-Reasoning (V-CoT) sagt Tausende von visuellen Token bei jedem Reasoning-Schritt voraus, was zu geringer Trainingseffizienz und hoher Inferenzlatenz führt. Um dies zu beheben, integriert FantasyVLN das Compact Visual Chain-of-Thought (CompV-CoT). Dabei wird ein vortrainiertes Large Vision-Language Model (VLM) wie Qwen2.5-VL darauf trainiert, direkt einen kompakten Satz visueller Token im latenten Raum eines vortrainierten VAR-Modells zu generieren. Dies resultiert in einer neuartigen, komprimierten visuellen CoT-Repräsentation mit wesentlich weniger Token.
Der VAR-Modell folgt einem Next-Scale-Prediction-Paradigma, um visuelle Informationen hierarchisch zu kodieren, was eine höhere Effizienz als herkömmliche Autoencoding-Ansätze (wie VAE oder VQ-VAE) ermöglicht. Bei einem 256x256-Bild kann das VAR-Modell eine präzise Rekonstruktion unter Verwendung der entsprechenden Low-Scale-Repräsentationen erreichen, die nur 30 visuelle Token enthalten. Im Vergleich zu anderen visuellen Kompressoren erzielt VAR ein höheres Kompressionsverhältnis bei vergleichbarer Rekonstruktionsqualität.
Während des Trainings wird das VAR-Modell eingefroren, während das VLM zunächst lernt, latente zukünftige Beobachtungen vorherzusagen und dann die entsprechenden Aktionen abzuleiten. Während der Inferenz wird nur das VLM verwendet, um die visuell-CoT-basierte Navigation ohne explizite VAR-Dekodierung durchzuführen. Dies verbessert sowohl die Trainings- als auch die Inferenz-Effizienz.
Aufbauend auf CompV-CoT präsentiert FantasyVLN ein Unified Multimodal Chain-of-Thought (UM-CoT)-Framework, das textuelles, komprimiertes visuelles und multimodales Reasoning innerhalb eines einzigen Agenten integriert.
Um diese Reasoning-Modi innerhalb eines einzigen Frameworks zu vereinheitlichen, werden zwei binäre Gating-Signale eingeführt, die steuern, ob textuelles und visuelles Reasoning aktiviert wird. Dieser Gating-Mechanismus ermöglicht es einer einzigen Policy, flexibel in Non-CoT, T-CoT, CompV-CoT und MM-CoT-Modi zu operieren.
Um Konflikte zwischen verschiedenen Reasoning-Modi zu verhindern, führt FantasyVLN eine Cross-Mode Alignment Constraint ein. Die Kernidee ist, den Non-CoT-Reasoning-Modus als Überwachungssignal zu verwenden, um alle CoT-Varianten auszurichten. Dadurch werden verschiedene Reasoning-Verhaltensweisen in eine gemeinsame latente Policy eingebettet. Dies stellt sicher, dass das Modell konsistente, modalitätsinvariante Reasoning-Repräsentationen lernt.
Umfassende Experimente auf dem anspruchsvollen LH-VLN-Benchmark, der sich durch mehrstufige Aufgaben und lange Navigationspfade auszeichnet, demonstrieren die Leistungsfähigkeit von FantasyVLN. Der Benchmark bewertet die Navigationsgenauigkeit anhand von Metriken wie Success Rate (SR), Independent Success Rate (ISR), Conditional Success Rate (CSR) und CSR weighted by Ground Truth (CGT).
FantasyVLN erzielt überlegene Leistungen in allen Metriken. Im Vergleich zu existierenden textuellen und visuellen CoT-basierten Methoden sowie speicherbasierten Ansätzen übertrifft FantasyVLN diese deutlich. Beispielsweise erreicht es eine SR von 2,44, eine ISR von 11,01, eine CSR von 9,64 und eine CGT von 8,99. Dies deutet darauf hin, dass die vereinheitlichte multimodale implizite Reasoning-Architektur entscheidend für die Bewältigung komplexer, mehrstufiger VLN-Aufgaben ist.
Die Integration aller vier Reasoning-Modi (Non-CoT, T-CoT, V-CoT und MM-CoT) während des Trainings verbessert die Gesamtleistung weiter. Dies bestätigt den Beitrag jedes einzelnen Reasoning-Modus zum Framework.
Ein wesentlicher Vorteil von FantasyVLN liegt in seiner Inferenz-Effizienz. Implizite Reasoning-Modelle, darunter FantasyVLN, Aux-Think und WorldVLA, weisen eine vergleichbare Effizienz auf und übertreffen explizite Ansätze wie CoT-VLA erheblich. Während implizites Reasoning jede Aktion durch Dekodierung eines einzelnen Tokens vorhersagt, erfordert explizites Reasoning die Generierung von CoT-Schritten mit Tausenden von Token. Bei ähnlichen Modellgrößen prognostiziert implizites CoT-Reasoning etwa eine Aktion pro Sekunde, während explizites CoT-Reasoning nur 0,19 Aktionen pro Sekunde liefert. Dies macht implizites Reasoning besser geeignet für die Echtzeitanforderungen von VLN-Aufgaben.
FantasyVLN stellt einen signifikanten Fortschritt in der Vision-Language Navigation dar, indem es ein vereinheitlichtes implizites Reasoning-Framework bietet, das die Vorteile des Chain-of-Thought-Reasoning bewahrt, ohne die mit expliziten CoT-Methoden verbundene Token-Inflation. Durch die Komprimierung imaginierter visueller Beobachtungen in einem kompakten latenten Raum und die gemeinsame Schulung über verschiedene CoT-Modi hinweg, lernt das Framework modalitätsinvariante Reasoning-Repräsentationen. Dies ermöglicht eine effiziente und genaue Navigation in Echtzeit.
Die experimentellen Ergebnisse auf dem anspruchsvollen LH-VLN-Benchmark unterstreichen die Überlegenheit von FantasyVLN in Bezug auf Navigationsgenauigkeit und Effizienz, bei gleichzeitiger Reduzierung der Inferenzlatenz um eine Größenordnung im Vergleich zu expliziten CoT-Baselines. Diese Erkenntnisse deuten darauf hin, dass implizites multimodales Reasoning einen praktikablen Weg zu einer echtzeitfähigen, verkörperten Navigation ebnet und das Potenzial kompakter latenter Reasoning-Signale hervorhebt, um die Lücke zwischen semantischer Absicht und räumlicher Entscheidungsfindung in komplexen Umgebungen zu schließen.
Zukünftige Arbeiten könnten sich auf die weitere Optimierung der latenten Raumdarstellungen und die Erkundung neuer Anwendungsbereiche für dieses effiziente Reasoning-Paradigma konzentrieren, um die Robustheit und Generalisierbarkeit von VLN-Systemen weiter zu verbessern.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen