KI für Ihr Unternehmen – Jetzt Demo buchen

Visuelle Schlussfolgerungen und die CAPTURe-Herausforderung: Eine Analyse der Leistungsfähigkeit von KI-Modellen

Kategorien:
No items found.
Freigegeben:
April 24, 2025

Artikel jetzt als Podcast anhören

Visuelles Schlussfolgern im Test: Wie gut meistern KI-Modelle die CAPTURe-Herausforderung?

Künstliche Intelligenz (KI) hat in den letzten Jahren rasante Fortschritte gemacht, insbesondere im Bereich der visuellen Sprachmodelle (VLMs). Diese Modelle können Bilder interpretieren, Fragen dazu beantworten und sogar komplexe Szenen beschreiben. Doch wie gut sind sie wirklich darin, räumliche Zusammenhänge zu verstehen und Schlussfolgerungen über verdeckte Objekte zu ziehen? Eine neue Forschungsarbeit stellt VLMs mit der Aufgabe "Counting Amodally for Patterns Through Unseen REgions" (CAPTURe) auf die Probe.

CAPTURe testet die Fähigkeit von KI-Modellen, Objekte zu zählen, die in einem Muster angeordnet sind, wobei Teile des Musters durch ein anderes Objekt verdeckt werden. Diese Aufgabe erfordert nicht nur die Erkennung visueller Muster, sondern auch die Fähigkeit, räumlich zu denken und fehlende Informationen zu ergänzen. Die Herausforderung besteht darin, dass die Modelle den Verlauf des Musters hinter dem verdeckenden Objekt erschließen müssen, um die Gesamtzahl der Objekte korrekt zu bestimmen.

Die Forscher haben zwei Versionen von CAPTURe entwickelt: CAPTURe-real verwendet Fotos von realen Objekten in Mustern, während CAPTURe-synthetic auf generierten Bildern basiert. Diese beiden Varianten ermöglichen es, die Leistung der Modelle sowohl in realistischen als auch in kontrollierten Umgebungen zu bewerten.

In der Studie wurden vier leistungsstarke VLMs – GPT-4o, Intern-VL2, Molmo und Qwen2-VL – mit der CAPTURe-Aufgabe konfrontiert. Die Ergebnisse zeigen, dass selbst die fortschrittlichsten Modelle Schwierigkeiten haben, sowohl sichtbare als auch verdeckte Muster korrekt zu zählen. Besonders deutlich wird die Schwäche der Modelle im Umgang mit Verdeckungen: Die Leistung sinkt signifikant, wenn Teile des Musters nicht direkt sichtbar sind.

Dieser Leistungsunterschied deutet darauf hin, dass VLMs noch Defizite im räumlichen Denken und im Verständnis von verdeckten Objekten aufweisen. Sie scheinen Schwierigkeiten zu haben, die fehlenden Informationen zu ergänzen und den Verlauf des Musters hinter dem Hindernis zu erschließen. Im Gegensatz dazu zeigen menschliche Probanden bei der Bearbeitung von CAPTURe eine sehr geringe Fehlerquote.

Interessanterweise verbessert sich die Leistung der Modelle, wenn ihnen zusätzliche Informationen über die Position der verdeckten Objekte zur Verfügung gestellt werden. Dies unterstreicht, dass die Schwierigkeiten der Modelle nicht nur auf den Umgang mit Verdeckungen zurückzuführen sind, sondern auch auf generelle Probleme beim Zählen von Objekten in Bildern.

Die CAPTURe-Aufgabe bietet eine wertvolle Grundlage für die weitere Forschung im Bereich des visuellen Schlussfolgerns. Sie zeigt, wo die aktuellen Grenzen von VLMs liegen und welche Bereiche zukünftig verbessert werden müssen, um robustere und leistungsfähigere KI-Systeme zu entwickeln. Die Fähigkeit, räumliche Zusammenhänge zu verstehen und über verdeckte Objekte zu schlussfolgern, ist entscheidend für viele Anwendungen der KI, von der Robotik bis zur Bildanalyse.

Die Entwicklung von KI-Modellen, die die Welt ähnlich wie Menschen wahrnehmen und interpretieren können, bleibt eine zentrale Herausforderung. CAPTURe liefert einen wichtigen Beitrag zur Evaluierung und Weiterentwicklung von VLMs und trägt dazu bei, die Lücke zwischen menschlicher und künstlicher Intelligenz zu schließen.

Bibliographie: - Pothiraj, A., Stengel-Eskin, E., Cho, J., & Bansal, M. (2025). CAPTURe: Evaluating Spatial Reasoning in Vision Language Models via Occluded Object Counting. arXiv preprint arXiv:2504.15485. - https://paperreading.club/page?id=301164 - Sha, L., Gan, Z., Wang, Y., Li, M., Zhang, Y., Liu, Y., ... & Chen, D. (2024). LVLM-eHub: A Comprehensive Evaluation Benchmark for Large Vision-Language Models. arXiv preprint arXiv:2406.01584. - Zhu, X., Li, W., Hu, H., Qi, F., Niu, Y., Zhang, H., & Sun, C. (2024). Structured Spatial Reasoning with Open Vocabulary Object Detectors. In Proceedings of the European Conference on Computer Vision (ECCV) (pp. 285-302). - jiayuww/SpatialEval: Spatial Reasoning Evaluation for Vision-Language Models (github.com) - https://www.researchgate.net/publication/384811670_Structured_Spatial_Reasoning_with_Open_Vocabulary_Object_Detectors - https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/02307.pdf - https://www.researchgate.net/publication/386186611_LVLM-EHub_A_Comprehensive_Evaluation_Benchmark_for_Large_Vision-Language_Models - https://amu.hal.science/hal-04181190/file/Towards_an_Exhaustive_Evaluation_of_Vision_Language_Foundation_Models.pdf
Was bedeutet das?
Mindverse vs ChatGPT Plus Widget

Warum Mindverse Studio?

Entdecken Sie die Vorteile gegenüber ChatGPT Plus

Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.

🚀 Mindverse Studio

Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.

ChatGPT Plus

❌ Kein strukturierter Dokumentenvergleich

❌ Keine Bearbeitung im Dokumentkontext

❌ Keine Integration von Unternehmenswissen

VS

Mindverse Studio

✅ Gezielter Dokumentenvergleich mit Custom-Prompts

✅ Kontextbewusste Textbearbeitung im Editor

✅ Wissensbasierte Analyse & Zusammenfassungen

📚 Nutzen Sie Ihr internes Wissen – intelligent und sicher

Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.

ChatGPT Plus

❌ Nur ein Modellanbieter (OpenAI)

❌ Keine Modellauswahl pro Use Case

❌ Keine zentrale Modellsteuerung für Teams

VS

Mindverse Studio

✅ Zugriff auf über 50 verschiedene KI-Modelle

✅ Modellauswahl pro Prompt oder Assistent

✅ Zentrale Steuerung auf Organisationsebene

🧠 Zugang zu allen führenden KI-Modellen – flexibel & anpassbar

OpenAI GPT-4: für kreative Texte und allgemeine Anwendungen
Anthropic Claude: stark in Analyse, Struktur und komplexem Reasoning
Google Gemini: ideal für multimodale Aufgaben (Text, Bild, Code)
Eigene Engines: individuell trainiert auf Ihre Daten und Prozesse

ChatGPT Plus

❌ Keine echte Teamkollaboration

❌ Keine Rechte- oder Rollenverteilung

❌ Keine zentrale Steuerung oder Nachvollziehbarkeit

VS

Mindverse Studio

✅ Teamübergreifende Bearbeitung in Echtzeit

✅ Granulare Rechte- und Freigabeverwaltung

✅ Zentrale Steuerung & Transparenz auf Organisationsebene

👥 Kollaborative KI für Ihr gesamtes Unternehmen

Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.

Bereit für den nächsten Schritt?

Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.

🎯 Kostenlose Demo buchen

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
Herzlichen Dank! Deine Nachricht ist eingegangen!
Oops! Du hast wohl was vergessen, versuche es nochmal.

🚀 Neugierig auf Mindverse Studio?

Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

🚀 Demo jetzt buchen