KI für Ihr Unternehmen – Jetzt Demo buchen

Multi-View Verständnis in Multimodalen Sprachmodellen: Herausforderungen und Fortschritte

Kategorien:
No items found.
Freigegeben:
April 24, 2025

Artikel jetzt als Podcast anhören

Inhaltsverzeichnis

    Multi-View Verständnis in Multimodalen Großen Sprachmodellen: Eine Herausforderung für Embodied AI

    Multimodale Große Sprachmodelle (MLLMs) haben in den letzten Jahren beeindruckende Fortschritte in Bereichen wie Schlussfolgerung und Planung gezeigt. Besonders im Hinblick auf ihren Einsatz als sogenannte "Embodied Agents", also KI-Agenten, die in einer simulierten oder realen Umgebung agieren, rückt die Fähigkeit zur Verarbeitung und Interpretation multipler Perspektiven in den Vordergrund. Diese Fähigkeit, bekannt als Multi-View Verständnis, ermöglicht es, visuelle Informationen aus verschiedenen Blickwinkeln zu kombinieren und für Aufgaben wie Navigation, Manipulation von Objekten und 3D-Szenenverständnis zu nutzen. Doch gerade in diesem Bereich zeigen aktuelle MLLMs noch deutliche Schwächen.

    Während MLLMs komplexe Texte verstehen und generieren können, stoßen sie bei der Verarbeitung von visuellen Informationen aus verschiedenen Perspektiven auf Schwierigkeiten. Die Herausforderung besteht darin, geometrische Konsistenz zwischen den Ansichten zu gewährleisten und Korrespondenzen zwischen den verschiedenen Perspektiven herzustellen. Ein Objekt, das in einer Ansicht teilweise verdeckt ist, muss in einer anderen Ansicht korrekt identifiziert werden. Die relative Position von Objekten zueinander muss unabhängig vom Blickwinkel bestimmt werden können. Diese Fähigkeiten sind essentiell für ein umfassendes Szenenverständnis und bilden die Grundlage für zielgerichtetes Handeln in einer 3D-Umgebung.

    All-Angles Bench: Ein neuer Benchmark für Multi-View Verständnis

    Um die Fähigkeiten von MLLMs im Bereich des Multi-View Verständnisses zu evaluieren, wurde der "All-Angles Bench" entwickelt. Dieser Benchmark umfasst über 2100 sorgfältig von Menschen annotierte Frage-Antwort-Paare zu 90 verschiedenen realen Szenen. Die sechs Aufgaben des Benchmarks – Zählen, Attributerkennung, relative Distanz, relative Richtung, Objektmanipulation und Kameraposen-Schätzung – testen gezielt die Fähigkeit der Modelle, geometrische Korrespondenzen zu erkennen und Informationen über verschiedene Ansichten hinweg konsistent abzugleichen.

    In umfangreichen Experimenten wurden 27 repräsentative MLLMs, darunter Gemini-2.0-Flash, Claude-3.7-Sonnet und GPT-4o, mit menschlichen Probanden verglichen. Die Ergebnisse zeigen eine erhebliche Leistungslücke zwischen den Modellen und dem menschlichen Verständnis. MLLMs schneiden insbesondere bei der Korrespondenzfindung zwischen Ansichten mit teilweisen Verdeckungen und der Bestimmung der groben Kameraperspektive schlecht ab.

    Ausblick und zukünftige Forschung

    Die Ergebnisse des All-Angles Bench unterstreichen die Notwendigkeit weiterer Forschung im Bereich des Multi-View Verständnisses für MLLMs. Spezifische Anpassungen und Module, die ein stärkeres Multi-View-Bewusstsein integrieren, sind erforderlich, um die Leistungslücke zu schließen. Zukünftige Forschung könnte sich auf die Entwicklung von Trainingsmethoden konzentrieren, die die geometrischen Beziehungen zwischen verschiedenen Ansichten explizit berücksichtigen. Auch die Integration von spezialisierten Modulen für die Kameraposen-Schätzung und die Verarbeitung von teilweisen Verdeckungen könnte zu einer Verbesserung der Leistung führen.

    Der All-Angles Bench bietet wertvolle Einblicke in die aktuellen Schwächen von MLLMs und trägt dazu bei, die Kluft zwischen maschinellem und menschlichem Multi-View Verständnis zu verringern. Dies ist ein wichtiger Schritt auf dem Weg zu robusten und zuverlässigen Embodied AI-Systemen, die in komplexen 3D-Umgebungen effektiv agieren können.

    Bibliographie: Hou et al. Learning to Select Views for Efficient Multi-View Understanding. CVPR 2024. Anonymous. Multi-View Fusion of Local and Global Features for Image Retrieval. arXiv:2410.16824, 2024. Anonymous. Efficient Multi-view Stereo by Iterative Dynamic Cost Volume Aggregation and Refinement. arXiv:2411.12287v1, 2024. CVPR 2025 Accepted Papers. Lingni Ma et al. Multi-view 3D Entangled Forest. IROS 2017. Yutong Bai et al. Point-M2AE: Multi-modal Masked Autoencoders for Point Cloud Pre-training. OpenReview, 2024. Paperswithcode. Multiview Learning. Epoch AI. Notable AI Models.
    Mindverse vs ChatGPT Plus Widget

    Warum Mindverse Studio?

    Entdecken Sie die Vorteile gegenüber ChatGPT Plus

    Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.

    🚀 Mindverse Studio

    Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.

    ChatGPT Plus

    ❌ Kein strukturierter Dokumentenvergleich

    ❌ Keine Bearbeitung im Dokumentkontext

    ❌ Keine Integration von Unternehmenswissen

    VS

    Mindverse Studio

    ✅ Gezielter Dokumentenvergleich mit Custom-Prompts

    ✅ Kontextbewusste Textbearbeitung im Editor

    ✅ Wissensbasierte Analyse & Zusammenfassungen

    📚 Nutzen Sie Ihr internes Wissen – intelligent und sicher

    Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.

    ChatGPT Plus

    ❌ Nur ein Modellanbieter (OpenAI)

    ❌ Keine Modellauswahl pro Use Case

    ❌ Keine zentrale Modellsteuerung für Teams

    VS

    Mindverse Studio

    ✅ Zugriff auf über 50 verschiedene KI-Modelle

    ✅ Modellauswahl pro Prompt oder Assistent

    ✅ Zentrale Steuerung auf Organisationsebene

    🧠 Zugang zu allen führenden KI-Modellen – flexibel & anpassbar

    OpenAI GPT-4: für kreative Texte und allgemeine Anwendungen
    Anthropic Claude: stark in Analyse, Struktur und komplexem Reasoning
    Google Gemini: ideal für multimodale Aufgaben (Text, Bild, Code)
    Eigene Engines: individuell trainiert auf Ihre Daten und Prozesse

    ChatGPT Plus

    ❌ Keine echte Teamkollaboration

    ❌ Keine Rechte- oder Rollenverteilung

    ❌ Keine zentrale Steuerung oder Nachvollziehbarkeit

    VS

    Mindverse Studio

    ✅ Teamübergreifende Bearbeitung in Echtzeit

    ✅ Granulare Rechte- und Freigabeverwaltung

    ✅ Zentrale Steuerung & Transparenz auf Organisationsebene

    👥 Kollaborative KI für Ihr gesamtes Unternehmen

    Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.

    Bereit für den nächsten Schritt?

    Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.

    🎯 Kostenlose Demo buchen

    Wie können wir Ihnen heute helfen?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen