Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Multimodale Große Sprachmodelle (MLLMs) haben in den letzten Jahren beeindruckende Fortschritte in Bereichen wie Schlussfolgerung und Planung gezeigt. Besonders im Hinblick auf ihren Einsatz als sogenannte "Embodied Agents", also KI-Agenten, die in einer simulierten oder realen Umgebung agieren, rückt die Fähigkeit zur Verarbeitung und Interpretation multipler Perspektiven in den Vordergrund. Diese Fähigkeit, bekannt als Multi-View Verständnis, ermöglicht es, visuelle Informationen aus verschiedenen Blickwinkeln zu kombinieren und für Aufgaben wie Navigation, Manipulation von Objekten und 3D-Szenenverständnis zu nutzen. Doch gerade in diesem Bereich zeigen aktuelle MLLMs noch deutliche Schwächen.
Während MLLMs komplexe Texte verstehen und generieren können, stoßen sie bei der Verarbeitung von visuellen Informationen aus verschiedenen Perspektiven auf Schwierigkeiten. Die Herausforderung besteht darin, geometrische Konsistenz zwischen den Ansichten zu gewährleisten und Korrespondenzen zwischen den verschiedenen Perspektiven herzustellen. Ein Objekt, das in einer Ansicht teilweise verdeckt ist, muss in einer anderen Ansicht korrekt identifiziert werden. Die relative Position von Objekten zueinander muss unabhängig vom Blickwinkel bestimmt werden können. Diese Fähigkeiten sind essentiell für ein umfassendes Szenenverständnis und bilden die Grundlage für zielgerichtetes Handeln in einer 3D-Umgebung.
Um die Fähigkeiten von MLLMs im Bereich des Multi-View Verständnisses zu evaluieren, wurde der "All-Angles Bench" entwickelt. Dieser Benchmark umfasst über 2100 sorgfältig von Menschen annotierte Frage-Antwort-Paare zu 90 verschiedenen realen Szenen. Die sechs Aufgaben des Benchmarks – Zählen, Attributerkennung, relative Distanz, relative Richtung, Objektmanipulation und Kameraposen-Schätzung – testen gezielt die Fähigkeit der Modelle, geometrische Korrespondenzen zu erkennen und Informationen über verschiedene Ansichten hinweg konsistent abzugleichen.
In umfangreichen Experimenten wurden 27 repräsentative MLLMs, darunter Gemini-2.0-Flash, Claude-3.7-Sonnet und GPT-4o, mit menschlichen Probanden verglichen. Die Ergebnisse zeigen eine erhebliche Leistungslücke zwischen den Modellen und dem menschlichen Verständnis. MLLMs schneiden insbesondere bei der Korrespondenzfindung zwischen Ansichten mit teilweisen Verdeckungen und der Bestimmung der groben Kameraperspektive schlecht ab.
Die Ergebnisse des All-Angles Bench unterstreichen die Notwendigkeit weiterer Forschung im Bereich des Multi-View Verständnisses für MLLMs. Spezifische Anpassungen und Module, die ein stärkeres Multi-View-Bewusstsein integrieren, sind erforderlich, um die Leistungslücke zu schließen. Zukünftige Forschung könnte sich auf die Entwicklung von Trainingsmethoden konzentrieren, die die geometrischen Beziehungen zwischen verschiedenen Ansichten explizit berücksichtigen. Auch die Integration von spezialisierten Modulen für die Kameraposen-Schätzung und die Verarbeitung von teilweisen Verdeckungen könnte zu einer Verbesserung der Leistung führen.
Der All-Angles Bench bietet wertvolle Einblicke in die aktuellen Schwächen von MLLMs und trägt dazu bei, die Kluft zwischen maschinellem und menschlichem Multi-View Verständnis zu verringern. Dies ist ein wichtiger Schritt auf dem Weg zu robusten und zuverlässigen Embodied AI-Systemen, die in komplexen 3D-Umgebungen effektiv agieren können.
Bibliographie: Hou et al. Learning to Select Views for Efficient Multi-View Understanding. CVPR 2024. Anonymous. Multi-View Fusion of Local and Global Features for Image Retrieval. arXiv:2410.16824, 2024. Anonymous. Efficient Multi-view Stereo by Iterative Dynamic Cost Volume Aggregation and Refinement. arXiv:2411.12287v1, 2024. CVPR 2025 Accepted Papers. Lingni Ma et al. Multi-view 3D Entangled Forest. IROS 2017. Yutong Bai et al. Point-M2AE: Multi-modal Masked Autoencoders for Point Cloud Pre-training. OpenReview, 2024. Paperswithcode. Multiview Learning. Epoch AI. Notable AI Models.Entdecken Sie die Vorteile gegenüber ChatGPT Plus
Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.
Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.
❌ Kein strukturierter Dokumentenvergleich
❌ Keine Bearbeitung im Dokumentkontext
❌ Keine Integration von Unternehmenswissen
✅ Gezielter Dokumentenvergleich mit Custom-Prompts
✅ Kontextbewusste Textbearbeitung im Editor
✅ Wissensbasierte Analyse & Zusammenfassungen
Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.
❌ Nur ein Modellanbieter (OpenAI)
❌ Keine Modellauswahl pro Use Case
❌ Keine zentrale Modellsteuerung für Teams
✅ Zugriff auf über 50 verschiedene KI-Modelle
✅ Modellauswahl pro Prompt oder Assistent
✅ Zentrale Steuerung auf Organisationsebene
❌ Keine echte Teamkollaboration
❌ Keine Rechte- oder Rollenverteilung
❌ Keine zentrale Steuerung oder Nachvollziehbarkeit
✅ Teamübergreifende Bearbeitung in Echtzeit
✅ Granulare Rechte- und Freigabeverwaltung
✅ Zentrale Steuerung & Transparenz auf Organisationsebene
Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.
Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.
🎯 Kostenlose Demo buchenLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen