Multi-View Verständnis in Multimodalen Sprachmodellen: Herausforderungen und Fortschritte

Kategorien:

No items found.

Freigegeben:

April 24, 2025

kostenlos testen Termin buchen

Artikel jetzt als Podcast anhören

00:00 / 00:00

Multi-View Verständnis in Multimodalen Großen Sprachmodellen: Eine Herausforderung für Embodied AI

Multimodale Große Sprachmodelle (MLLMs) haben in den letzten Jahren beeindruckende Fortschritte in Bereichen wie Schlussfolgerung und Planung gezeigt. Besonders im Hinblick auf ihren Einsatz als sogenannte "Embodied Agents", also KI-Agenten, die in einer simulierten oder realen Umgebung agieren, rückt die Fähigkeit zur Verarbeitung und Interpretation multipler Perspektiven in den Vordergrund. Diese Fähigkeit, bekannt als Multi-View Verständnis, ermöglicht es, visuelle Informationen aus verschiedenen Blickwinkeln zu kombinieren und für Aufgaben wie Navigation, Manipulation von Objekten und 3D-Szenenverständnis zu nutzen. Doch gerade in diesem Bereich zeigen aktuelle MLLMs noch deutliche Schwächen.

Während MLLMs komplexe Texte verstehen und generieren können, stoßen sie bei der Verarbeitung von visuellen Informationen aus verschiedenen Perspektiven auf Schwierigkeiten. Die Herausforderung besteht darin, geometrische Konsistenz zwischen den Ansichten zu gewährleisten und Korrespondenzen zwischen den verschiedenen Perspektiven herzustellen. Ein Objekt, das in einer Ansicht teilweise verdeckt ist, muss in einer anderen Ansicht korrekt identifiziert werden. Die relative Position von Objekten zueinander muss unabhängig vom Blickwinkel bestimmt werden können. Diese Fähigkeiten sind essentiell für ein umfassendes Szenenverständnis und bilden die Grundlage für zielgerichtetes Handeln in einer 3D-Umgebung.

All-Angles Bench: Ein neuer Benchmark für Multi-View Verständnis

Um die Fähigkeiten von MLLMs im Bereich des Multi-View Verständnisses zu evaluieren, wurde der "All-Angles Bench" entwickelt. Dieser Benchmark umfasst über 2100 sorgfältig von Menschen annotierte Frage-Antwort-Paare zu 90 verschiedenen realen Szenen. Die sechs Aufgaben des Benchmarks – Zählen, Attributerkennung, relative Distanz, relative Richtung, Objektmanipulation und Kameraposen-Schätzung – testen gezielt die Fähigkeit der Modelle, geometrische Korrespondenzen zu erkennen und Informationen über verschiedene Ansichten hinweg konsistent abzugleichen.

In umfangreichen Experimenten wurden 27 repräsentative MLLMs, darunter Gemini-2.0-Flash, Claude-3.7-Sonnet und GPT-4o, mit menschlichen Probanden verglichen. Die Ergebnisse zeigen eine erhebliche Leistungslücke zwischen den Modellen und dem menschlichen Verständnis. MLLMs schneiden insbesondere bei der Korrespondenzfindung zwischen Ansichten mit teilweisen Verdeckungen und der Bestimmung der groben Kameraperspektive schlecht ab.

Ausblick und zukünftige Forschung

Die Ergebnisse des All-Angles Bench unterstreichen die Notwendigkeit weiterer Forschung im Bereich des Multi-View Verständnisses für MLLMs. Spezifische Anpassungen und Module, die ein stärkeres Multi-View-Bewusstsein integrieren, sind erforderlich, um die Leistungslücke zu schließen. Zukünftige Forschung könnte sich auf die Entwicklung von Trainingsmethoden konzentrieren, die die geometrischen Beziehungen zwischen verschiedenen Ansichten explizit berücksichtigen. Auch die Integration von spezialisierten Modulen für die Kameraposen-Schätzung und die Verarbeitung von teilweisen Verdeckungen könnte zu einer Verbesserung der Leistung führen.

Der All-Angles Bench bietet wertvolle Einblicke in die aktuellen Schwächen von MLLMs und trägt dazu bei, die Kluft zwischen maschinellem und menschlichem Multi-View Verständnis zu verringern. Dies ist ein wichtiger Schritt auf dem Weg zu robusten und zuverlässigen Embodied AI-Systemen, die in komplexen 3D-Umgebungen effektiv agieren können.

Bibliographie: Hou et al. Learning to Select Views for Efficient Multi-View Understanding. CVPR 2024. Anonymous. Multi-View Fusion of Local and Global Features for Image Retrieval. arXiv:2410.16824, 2024. Anonymous. Efficient Multi-view Stereo by Iterative Dynamic Cost Volume Aggregation and Refinement. arXiv:2411.12287v1, 2024. CVPR 2025 Accepted Papers. Lingni Ma et al. Multi-view 3D Entangled Forest. IROS 2017. Yutong Bai et al. Point-M2AE: Multi-modal Masked Autoencoders for Point Cloud Pre-training. OpenReview, 2024. Paperswithcode. Multiview Learning. Epoch AI. Notable AI Models.

Was bedeutet das?