Künstliche Intelligenz (KI) hat in den letzten Jahren rasante Fortschritte gemacht, insbesondere im Bereich der visuellen Sprachmodelle (VLMs). Diese Modelle können Bilder interpretieren, Fragen dazu beantworten und sogar komplexe Szenen beschreiben. Doch wie gut sind sie wirklich darin, räumliche Zusammenhänge zu verstehen und Schlussfolgerungen über verdeckte Objekte zu ziehen? Eine neue Forschungsarbeit stellt VLMs mit der Aufgabe "Counting Amodally for Patterns Through Unseen REgions" (CAPTURe) auf die Probe.
CAPTURe testet die Fähigkeit von KI-Modellen, Objekte zu zählen, die in einem Muster angeordnet sind, wobei Teile des Musters durch ein anderes Objekt verdeckt werden. Diese Aufgabe erfordert nicht nur die Erkennung visueller Muster, sondern auch die Fähigkeit, räumlich zu denken und fehlende Informationen zu ergänzen. Die Herausforderung besteht darin, dass die Modelle den Verlauf des Musters hinter dem verdeckenden Objekt erschließen müssen, um die Gesamtzahl der Objekte korrekt zu bestimmen.
Die Forscher haben zwei Versionen von CAPTURe entwickelt: CAPTURe-real verwendet Fotos von realen Objekten in Mustern, während CAPTURe-synthetic auf generierten Bildern basiert. Diese beiden Varianten ermöglichen es, die Leistung der Modelle sowohl in realistischen als auch in kontrollierten Umgebungen zu bewerten.
In der Studie wurden vier leistungsstarke VLMs – GPT-4o, Intern-VL2, Molmo und Qwen2-VL – mit der CAPTURe-Aufgabe konfrontiert. Die Ergebnisse zeigen, dass selbst die fortschrittlichsten Modelle Schwierigkeiten haben, sowohl sichtbare als auch verdeckte Muster korrekt zu zählen. Besonders deutlich wird die Schwäche der Modelle im Umgang mit Verdeckungen: Die Leistung sinkt signifikant, wenn Teile des Musters nicht direkt sichtbar sind.
Dieser Leistungsunterschied deutet darauf hin, dass VLMs noch Defizite im räumlichen Denken und im Verständnis von verdeckten Objekten aufweisen. Sie scheinen Schwierigkeiten zu haben, die fehlenden Informationen zu ergänzen und den Verlauf des Musters hinter dem Hindernis zu erschließen. Im Gegensatz dazu zeigen menschliche Probanden bei der Bearbeitung von CAPTURe eine sehr geringe Fehlerquote.
Interessanterweise verbessert sich die Leistung der Modelle, wenn ihnen zusätzliche Informationen über die Position der verdeckten Objekte zur Verfügung gestellt werden. Dies unterstreicht, dass die Schwierigkeiten der Modelle nicht nur auf den Umgang mit Verdeckungen zurückzuführen sind, sondern auch auf generelle Probleme beim Zählen von Objekten in Bildern.
Die CAPTURe-Aufgabe bietet eine wertvolle Grundlage für die weitere Forschung im Bereich des visuellen Schlussfolgerns. Sie zeigt, wo die aktuellen Grenzen von VLMs liegen und welche Bereiche zukünftig verbessert werden müssen, um robustere und leistungsfähigere KI-Systeme zu entwickeln. Die Fähigkeit, räumliche Zusammenhänge zu verstehen und über verdeckte Objekte zu schlussfolgern, ist entscheidend für viele Anwendungen der KI, von der Robotik bis zur Bildanalyse.
Die Entwicklung von KI-Modellen, die die Welt ähnlich wie Menschen wahrnehmen und interpretieren können, bleibt eine zentrale Herausforderung. CAPTURe liefert einen wichtigen Beitrag zur Evaluierung und Weiterentwicklung von VLMs und trägt dazu bei, die Lücke zwischen menschlicher und künstlicher Intelligenz zu schließen.
Bibliographie: - Pothiraj, A., Stengel-Eskin, E., Cho, J., & Bansal, M. (2025). CAPTURe: Evaluating Spatial Reasoning in Vision Language Models via Occluded Object Counting. arXiv preprint arXiv:2504.15485. - https://paperreading.club/page?id=301164 - Sha, L., Gan, Z., Wang, Y., Li, M., Zhang, Y., Liu, Y., ... & Chen, D. (2024). LVLM-eHub: A Comprehensive Evaluation Benchmark for Large Vision-Language Models. arXiv preprint arXiv:2406.01584. - Zhu, X., Li, W., Hu, H., Qi, F., Niu, Y., Zhang, H., & Sun, C. (2024). Structured Spatial Reasoning with Open Vocabulary Object Detectors. In Proceedings of the European Conference on Computer Vision (ECCV) (pp. 285-302). - jiayuww/SpatialEval: Spatial Reasoning Evaluation for Vision-Language Models (github.com) - https://www.researchgate.net/publication/384811670_Structured_Spatial_Reasoning_with_Open_Vocabulary_Object_Detectors - https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/02307.pdf - https://www.researchgate.net/publication/386186611_LVLM-EHub_A_Comprehensive_Evaluation_Benchmark_for_Large_Vision-Language_Models - https://amu.hal.science/hal-04181190/file/Towards_an_Exhaustive_Evaluation_of_Vision_Language_Foundation_Models.pdf