Künstliche Intelligenz (KI) hat in den letzten Jahren rasante Fortschritte gemacht, insbesondere im Bereich der visuellen Sprachmodelle (VLMs). Diese Modelle können Bilder interpretieren, Fragen dazu beantworten und sogar komplexe Szenen beschreiben. Doch wie gut sind sie wirklich darin, räumliche Zusammenhänge zu verstehen und Schlussfolgerungen über verdeckte Objekte zu ziehen? Eine neue Forschungsarbeit stellt VLMs mit der Aufgabe "Counting Amodally for Patterns Through Unseen REgions" (CAPTURe) auf die Probe.
CAPTURe testet die Fähigkeit von KI-Modellen, Objekte zu zählen, die in einem Muster angeordnet sind, wobei Teile des Musters durch ein anderes Objekt verdeckt werden. Diese Aufgabe erfordert nicht nur die Erkennung visueller Muster, sondern auch die Fähigkeit, räumlich zu denken und fehlende Informationen zu ergänzen. Die Herausforderung besteht darin, dass die Modelle den Verlauf des Musters hinter dem verdeckenden Objekt erschließen müssen, um die Gesamtzahl der Objekte korrekt zu bestimmen.
Die Forscher haben zwei Versionen von CAPTURe entwickelt: CAPTURe-real verwendet Fotos von realen Objekten in Mustern, während CAPTURe-synthetic auf generierten Bildern basiert. Diese beiden Varianten ermöglichen es, die Leistung der Modelle sowohl in realistischen als auch in kontrollierten Umgebungen zu bewerten.
In der Studie wurden vier leistungsstarke VLMs – GPT-4o, Intern-VL2, Molmo und Qwen2-VL – mit der CAPTURe-Aufgabe konfrontiert. Die Ergebnisse zeigen, dass selbst die fortschrittlichsten Modelle Schwierigkeiten haben, sowohl sichtbare als auch verdeckte Muster korrekt zu zählen. Besonders deutlich wird die Schwäche der Modelle im Umgang mit Verdeckungen: Die Leistung sinkt signifikant, wenn Teile des Musters nicht direkt sichtbar sind.
Dieser Leistungsunterschied deutet darauf hin, dass VLMs noch Defizite im räumlichen Denken und im Verständnis von verdeckten Objekten aufweisen. Sie scheinen Schwierigkeiten zu haben, die fehlenden Informationen zu ergänzen und den Verlauf des Musters hinter dem Hindernis zu erschließen. Im Gegensatz dazu zeigen menschliche Probanden bei der Bearbeitung von CAPTURe eine sehr geringe Fehlerquote.
Interessanterweise verbessert sich die Leistung der Modelle, wenn ihnen zusätzliche Informationen über die Position der verdeckten Objekte zur Verfügung gestellt werden. Dies unterstreicht, dass die Schwierigkeiten der Modelle nicht nur auf den Umgang mit Verdeckungen zurückzuführen sind, sondern auch auf generelle Probleme beim Zählen von Objekten in Bildern.
Die CAPTURe-Aufgabe bietet eine wertvolle Grundlage für die weitere Forschung im Bereich des visuellen Schlussfolgerns. Sie zeigt, wo die aktuellen Grenzen von VLMs liegen und welche Bereiche zukünftig verbessert werden müssen, um robustere und leistungsfähigere KI-Systeme zu entwickeln. Die Fähigkeit, räumliche Zusammenhänge zu verstehen und über verdeckte Objekte zu schlussfolgern, ist entscheidend für viele Anwendungen der KI, von der Robotik bis zur Bildanalyse.
Die Entwicklung von KI-Modellen, die die Welt ähnlich wie Menschen wahrnehmen und interpretieren können, bleibt eine zentrale Herausforderung. CAPTURe liefert einen wichtigen Beitrag zur Evaluierung und Weiterentwicklung von VLMs und trägt dazu bei, die Lücke zwischen menschlicher und künstlicher Intelligenz zu schließen.
Bibliographie: - Pothiraj, A., Stengel-Eskin, E., Cho, J., & Bansal, M. (2025). CAPTURe: Evaluating Spatial Reasoning in Vision Language Models via Occluded Object Counting. arXiv preprint arXiv:2504.15485. - https://paperreading.club/page?id=301164 - Sha, L., Gan, Z., Wang, Y., Li, M., Zhang, Y., Liu, Y., ... & Chen, D. (2024). LVLM-eHub: A Comprehensive Evaluation Benchmark for Large Vision-Language Models. arXiv preprint arXiv:2406.01584. - Zhu, X., Li, W., Hu, H., Qi, F., Niu, Y., Zhang, H., & Sun, C. (2024). Structured Spatial Reasoning with Open Vocabulary Object Detectors. In Proceedings of the European Conference on Computer Vision (ECCV) (pp. 285-302). - jiayuww/SpatialEval: Spatial Reasoning Evaluation for Vision-Language Models (github.com) - https://www.researchgate.net/publication/384811670_Structured_Spatial_Reasoning_with_Open_Vocabulary_Object_Detectors - https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/02307.pdf - https://www.researchgate.net/publication/386186611_LVLM-EHub_A_Comprehensive_Evaluation_Benchmark_for_Large_Vision-Language_Models - https://amu.hal.science/hal-04181190/file/Towards_an_Exhaustive_Evaluation_of_Vision_Language_Foundation_Models.pdfEntdecken Sie die Vorteile gegenüber ChatGPT Plus
Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.
Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.
❌ Kein strukturierter Dokumentenvergleich
❌ Keine Bearbeitung im Dokumentkontext
❌ Keine Integration von Unternehmenswissen
✅ Gezielter Dokumentenvergleich mit Custom-Prompts
✅ Kontextbewusste Textbearbeitung im Editor
✅ Wissensbasierte Analyse & Zusammenfassungen
Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.
❌ Nur ein Modellanbieter (OpenAI)
❌ Keine Modellauswahl pro Use Case
❌ Keine zentrale Modellsteuerung für Teams
✅ Zugriff auf über 50 verschiedene KI-Modelle
✅ Modellauswahl pro Prompt oder Assistent
✅ Zentrale Steuerung auf Organisationsebene
❌ Keine echte Teamkollaboration
❌ Keine Rechte- oder Rollenverteilung
❌ Keine zentrale Steuerung oder Nachvollziehbarkeit
✅ Teamübergreifende Bearbeitung in Echtzeit
✅ Granulare Rechte- und Freigabeverwaltung
✅ Zentrale Steuerung & Transparenz auf Organisationsebene
Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.
Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.
🎯 Kostenlose Demo buchenLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen