Visuelle Schlussfolgerungen und die CAPTURe-Herausforderung: Eine Analyse der Leistungsfähigkeit von KI-Modellen

Kategorien:

No items found.

Freigegeben:

April 24, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Visuelles Schlussfolgern im Test: Wie gut meistern KI-Modelle die CAPTURe-Herausforderung?

Künstliche Intelligenz (KI) hat in den letzten Jahren rasante Fortschritte gemacht, insbesondere im Bereich der visuellen Sprachmodelle (VLMs). Diese Modelle können Bilder interpretieren, Fragen dazu beantworten und sogar komplexe Szenen beschreiben. Doch wie gut sind sie wirklich darin, räumliche Zusammenhänge zu verstehen und Schlussfolgerungen über verdeckte Objekte zu ziehen? Eine neue Forschungsarbeit stellt VLMs mit der Aufgabe "Counting Amodally for Patterns Through Unseen REgions" (CAPTURe) auf die Probe.

CAPTURe testet die Fähigkeit von KI-Modellen, Objekte zu zählen, die in einem Muster angeordnet sind, wobei Teile des Musters durch ein anderes Objekt verdeckt werden. Diese Aufgabe erfordert nicht nur die Erkennung visueller Muster, sondern auch die Fähigkeit, räumlich zu denken und fehlende Informationen zu ergänzen. Die Herausforderung besteht darin, dass die Modelle den Verlauf des Musters hinter dem verdeckenden Objekt erschließen müssen, um die Gesamtzahl der Objekte korrekt zu bestimmen.

Die Forscher haben zwei Versionen von CAPTURe entwickelt: CAPTURe-real verwendet Fotos von realen Objekten in Mustern, während CAPTURe-synthetic auf generierten Bildern basiert. Diese beiden Varianten ermöglichen es, die Leistung der Modelle sowohl in realistischen als auch in kontrollierten Umgebungen zu bewerten.

In der Studie wurden vier leistungsstarke VLMs – GPT-4o, Intern-VL2, Molmo und Qwen2-VL – mit der CAPTURe-Aufgabe konfrontiert. Die Ergebnisse zeigen, dass selbst die fortschrittlichsten Modelle Schwierigkeiten haben, sowohl sichtbare als auch verdeckte Muster korrekt zu zählen. Besonders deutlich wird die Schwäche der Modelle im Umgang mit Verdeckungen: Die Leistung sinkt signifikant, wenn Teile des Musters nicht direkt sichtbar sind.

Dieser Leistungsunterschied deutet darauf hin, dass VLMs noch Defizite im räumlichen Denken und im Verständnis von verdeckten Objekten aufweisen. Sie scheinen Schwierigkeiten zu haben, die fehlenden Informationen zu ergänzen und den Verlauf des Musters hinter dem Hindernis zu erschließen. Im Gegensatz dazu zeigen menschliche Probanden bei der Bearbeitung von CAPTURe eine sehr geringe Fehlerquote.

Interessanterweise verbessert sich die Leistung der Modelle, wenn ihnen zusätzliche Informationen über die Position der verdeckten Objekte zur Verfügung gestellt werden. Dies unterstreicht, dass die Schwierigkeiten der Modelle nicht nur auf den Umgang mit Verdeckungen zurückzuführen sind, sondern auch auf generelle Probleme beim Zählen von Objekten in Bildern.

Die CAPTURe-Aufgabe bietet eine wertvolle Grundlage für die weitere Forschung im Bereich des visuellen Schlussfolgerns. Sie zeigt, wo die aktuellen Grenzen von VLMs liegen und welche Bereiche zukünftig verbessert werden müssen, um robustere und leistungsfähigere KI-Systeme zu entwickeln. Die Fähigkeit, räumliche Zusammenhänge zu verstehen und über verdeckte Objekte zu schlussfolgern, ist entscheidend für viele Anwendungen der KI, von der Robotik bis zur Bildanalyse.

Die Entwicklung von KI-Modellen, die die Welt ähnlich wie Menschen wahrnehmen und interpretieren können, bleibt eine zentrale Herausforderung. CAPTURe liefert einen wichtigen Beitrag zur Evaluierung und Weiterentwicklung von VLMs und trägt dazu bei, die Lücke zwischen menschlicher und künstlicher Intelligenz zu schließen.

Bibliographie: - Pothiraj, A., Stengel-Eskin, E., Cho, J., & Bansal, M. (2025). CAPTURe: Evaluating Spatial Reasoning in Vision Language Models via Occluded Object Counting. arXiv preprint arXiv:2504.15485. - https://paperreading.club/page?id=301164 - Sha, L., Gan, Z., Wang, Y., Li, M., Zhang, Y., Liu, Y., ... & Chen, D. (2024). LVLM-eHub: A Comprehensive Evaluation Benchmark for Large Vision-Language Models. arXiv preprint arXiv:2406.01584. - Zhu, X., Li, W., Hu, H., Qi, F., Niu, Y., Zhang, H., & Sun, C. (2024). Structured Spatial Reasoning with Open Vocabulary Object Detectors. In Proceedings of the European Conference on Computer Vision (ECCV) (pp. 285-302). - jiayuww/SpatialEval: Spatial Reasoning Evaluation for Vision-Language Models (github.com) - https://www.researchgate.net/publication/384811670_Structured_Spatial_Reasoning_with_Open_Vocabulary_Object_Detectors - https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/02307.pdf - https://www.researchgate.net/publication/386186611_LVLM-EHub_A_Comprehensive_Evaluation_Benchmark_for_Large_Vision-Language_Models - https://amu.hal.science/hal-04181190/file/Towards_an_Exhaustive_Evaluation_of_Vision_Language_Foundation_Models.pdf