Neue Benchmark für visuelles Denken von Multimodalen Großen Sprachmodellen

Kategorien:

No items found.

Freigegeben:

March 2, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Herkömmliche Benchmarks für "Referring Expression Comprehension" (REC), wie RefCOCO, RefCOCO+ und RefCOCOg, zeigen Schwächen bei der Bewertung des visuellen Denkvermögens von Multimodalen Großen Sprachmodellen (MLLMs) aufgrund kurzer Ausdrücke, weniger Distraktoren und redundanter Beschreibungen.
Ref-Adv ist eine neue Benchmark, die speziell entwickelt wurde, um diese Mängel zu beheben, indem sie sprachlich anspruchsvolle Ausdrücke mit "Hard Distractors" kombiniert, die eine präzise visuelle und textuelle Argumentation erfordern.
Die Entwicklung von Ref-Adv erfolgte mittels eines zweistufigen LLM-gestützten Prozesses, der "Hard Distractors" identifiziert und minimal ausreichende Referenzausdrücke generiert, gefolgt von einer menschlichen Verifikation.
Umfassende Studien zeigen, dass MLLMs auf Ref-Adv deutlich schlechtere Leistungen erbringen als auf älteren Benchmarks, was auf eine Überschätzung ihrer visuellen Denkfähigkeiten und Abhängigkeit von "Shortcuts" hindeutet.
Die Einführung von "Chain-of-Thought" (CoT) Ansätzen, bei denen Modelle ihre Denkprozesse explizit darlegen, kann die Leistung von MLLMs bei komplexen REC-Aufgaben verbessern.
Ref-Adv, einschließlich des Teil-Datasets Ref-Adv-s, soll die Forschung an robusteren MLLMs mit verbesserter visueller Argumentation und Erdung vorantreiben.

Die Fähigkeit von Künstlicher Intelligenz, natürliche Sprache zu verstehen und visuelle Informationen zu verarbeiten, ist ein zentrales Forschungsfeld, insbesondere im Bereich der Multimodalen Großen Sprachmodelle (MLLMs). Eine Schlüsselaufgabe in diesem Kontext ist die Referring Expression Comprehension (REC), bei der ein Sprachausdruck einem spezifischen Bereich in einem Bild zugeordnet werden muss. Traditionelle Benchmarks zur Bewertung dieser Fähigkeit, wie RefCOCO, RefCOCO+ und RefCOCOg, haben zwar zur schnellen Entwicklung von MLLMs beigetragen, weisen jedoch signifikante Einschränkungen auf, die eine genaue Beurteilung des visuellen Denkvermögens erschweren.

Herausforderungen bestehender REC-Benchmarks

Die Analyse der gängigen REC-Benchmarks offenbart mehrere Schwachstellen:

Kurze Ausdrücke: Viele Referenzausdrücke sind sehr kurz (durchschnittlich etwa drei Wörter), was den sprachlichen und visuellen Denkaufwand minimiert.
Wenig Distraktoren: Bilder enthalten oft nur wenige bis gar keine "Distraktoren" (Objekte derselben Kategorie, die nicht das Zielobjekt sind). Dies vereinfacht die Aufgabe erheblich, da Modelle das Zielobjekt leichter isolieren können.
Redundante Beschreibungen: Selbst bei längeren Ausdrücken können redundante Beschreibungen zu "Grounding Shortcuts" führen. Modelle können das Zielobjekt identifizieren, indem sie nur einen Teil der Beschreibung nutzen, ohne den gesamten Ausdruck oder die visuelle Szene vollständig zu verstehen.

Diese Faktoren tragen dazu bei, dass MLLMs auf diesen Benchmarks hohe Genauigkeitswerte erzielen, die möglicherweise nicht ihre tatsächlichen visuellen Denkfähigkeiten widerspiegeln. Es besteht die Notwendigkeit für anspruchsvollere Benchmarks, die eine tiefere textuelle und visuelle Argumentation erfordern.

Ref-Adv: Eine neue Benchmark für visuelles Denken

Als Reaktion auf diese Herausforderungen wurde Ref-Adv entwickelt – eine moderne REC-Benchmark, die darauf abzielt, "Shortcuts" zu unterbinden und eine umfassendere Bewertung des visuellen Denkvermögens von MLLMs zu ermöglichen. Ref-Adv zeichnet sich durch folgende Merkmale aus:

Sprachlich anspruchsvolle Ausdrücke: Die Referenzausdrücke sind prägnant und enthalten nur die notwendigen Informationen zur eindeutigen Identifizierung des Zielobjekts.
"Hard Distractors": Die Bilder sind mit "Hard Distractors" kuratiert. Dies sind Objekte, die dem Zielobjekt teilweise ähneln, aber nicht vollständig mit dem Referenzausdruck übereinstimmen. Das Auffinden dieser Distraktoren und das Formulieren von Ausdrücken, die sie berücksichtigen, ist ein zentraler Bestandteil des Datenerfassungsprozesses.
Annotation von Denkfacetten: Das Dataset enthält Annotationen zu verschiedenen Denkfacetten, einschließlich Negationen, um die Komplexität der Aufgaben zu erhöhen.

Datenerhebung und -generierung

Die Erstellung von Ref-Adv erfolgte über einen mehrstufigen Prozess, der sowohl LLM-gestützte Generierung als auch menschliche Verifikation umfasst:

LLM-gestützte Pipeline

Eine zweistufige LLM-gestützte Pipeline, die GPT-4o nutzt, wurde implementiert, um Referenzausdrücke zu generieren:

Ähnlichkeitsbeurteilung: GPT-4o identifiziert ähnliche Objektpaare ("Hard Distractor" und Zielobjekt) und ermittelt unterscheidende Merkmale auf Gruppen- und Instanzebene.
Ausdrucksgenerierung: Basierend auf diesen Merkmalen werden von den LLMs minimal ausreichende und vielfältige Referenzausdrücke generiert. Dabei werden sowohl positive Beschreibungen als auch Negationen von Distraktormerkmalen verwendet, um die sprachliche Vielfalt zu fördern.

Menschliche Verifikation

Um die Qualität und Eindeutigkeit der generierten Daten zu gewährleisten, erfolgte eine umfassende menschliche Verifikation. Drei Annotatoren prüften pro Bild-Text-Paar die Korrektheit und Eindeutigkeit des Ausdrucks sowie die Existenz von "Hard Distractors". Nur Paare, bei denen alle drei Annotatoren übereinstimmten, wurden in das Dataset aufgenommen.

Qualitätsanalyse und experimentelle Ergebnisse

Umfassende Analysen bestätigen die höhere Qualität und den erhöhten Schwierigkeitsgrad von Ref-Adv im Vergleich zu bestehenden Benchmarks:

Längere Ausdrücke und größerer Wortschatz: Ref-Adv weist im Durchschnitt längere Ausdrücke und einen größeren Wortschatz auf.
Höhere Anzahl von Distraktoren: Das Dataset enthält im Schnitt mehr Distraktoren pro Bild, was die Aufgabe anspruchsvoller macht.
Höhere Negationsrate: Der Anteil von Ausdrücken, die Negationen verwenden, ist in Ref-Adv deutlich höher.
Geringere Modellverzerrung: Ein Bias-Test zeigte, dass Ref-Adv weniger anfällig für modellinterne Verzerrungen ist, die durch Trainingsdaten aus derselben Quelle wie die Bewertungs-Benchmark entstehen könnten.
Notwendigkeit textuellen Denkens: Ein Test zur Wortreihenfolge (Bag-of-Words-Ablation) belegte, dass Ref-Adv ein echtes textuelles Verständnis und Denken erfordert, im Gegensatz zu älteren Benchmarks, bei denen eine zufällige Wortreihenfolge die Leistung kaum beeinträchtigte.
Vermeidung von "Grounding Shortcuts": Ein Test zur Ausreichendheit des Löschens von Deskriptoren zeigte, dass Ref-Adv deutlich weniger "Grounding Shortcuts" aufweist. Das Entfernen eines einzelnen Deskriptors führte zu einem stärkeren Leistungsabfall, was darauf hindeutet, dass Modelle den gesamten Ausdruck verstehen müssen.

Die Evaluierung einer breiten Palette moderner MLLMs auf Ref-Adv, darunter Modelle der Qwen-VL-Serie, InternVL-3-Serie, Gemini 2.5-Flash, Gemini 2.5-Pro, CogVLM-Grounding, GLM-4.5V, GPT-4o und Claude-3.5 Sonnet, ergab einen signifikanten Leistungsabfall im Vergleich zu ihren hohen Ergebnissen auf RefCOCO(+/g). Dies deutet auf eine Überschätzung der visuellen Denkfähigkeiten dieser Modelle und ihre Abhängigkeit von "Shortcuts" hin.

Die Rolle von Chain-of-Thought (CoT)

Die Integration von "Chain-of-Thought" (CoT)-Prompts, die Modelle dazu anleiten, ihre Denkprozesse explizit in mehreren Schritten darzulegen, zeigte eine generelle Verbesserung der Leistung auf Ref-Adv. Dies unterstreicht die erhöhte Denkaufgabe, die Ref-Adv stellt, und die Relevanz von CoT-Ansätzen für komplexere visuelle Denkaufgaben.

Fazit und Ausblick

Ref-Adv repräsentiert einen wichtigen Schritt in der Entwicklung von Benchmarks für die Bewertung des visuellen Denkvermögens von MLLMs. Durch die gezielte Beseitigung von "Shortcuts" und die Einführung von "Hard Distractors" sowie komplexen sprachlichen Ausdrücken, bietet Ref-Adv eine realistischere und anspruchsvollere Testumgebung. Die Ergebnisse der Evaluierung aktueller MLLMs auf dieser Benchmark zeigen, dass trotz beeindruckender Fortschritte noch erhebliche Lücken im visuellen Denken und der Erdungsfähigkeit bestehen. Ref-Adv soll als Leitfaden für zukünftige Entwicklungen dienen, um robustere und leistungsfähigere MLLMs zu entwickeln, die in der Lage sind, reale visuelle Komplexität zu bewältigen. Ein öffentlich zugängliches Teil-Dataset, Ref-Adv-s, wird zur Verfügung gestellt, um die reproduzierbare Evaluierung und weitere Forschung in diesem Bereich zu fördern.

Bibliography - Dong, Q., Yang, K., Ju, L., Zhao, H., Zhang, Y., Wang, Y., Zeng, H., Lu, J., & Fu, Y. (2026). Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks. arXiv. - Dong, Q., Figueroa, L., Zhao, H., Kafle, K., Kuen, J., Ding, Z., Cohen, S., & Fu, Y. (2025). CoT Referring: Improving Referring Expression Tasks with Grounded Reasoning. arXiv. - Kazemzadeh, S., Ordonez, V., Matten, M., & Berg, T. (2014). ReferItGame: Referring to Objects in Photographs of Natural Scenes. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). - Mao, J., Huang, J., Toshev, A., Camburu, O., Yuille, A., & Murphy, K. (2016). Generation and Comprehension of Unambiguous Object Descriptions. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). - Yu, L., Poirson, P., Yang, S., Berg, A. C., & Berg, T. L. (2016). Modeling Context in Referring Expressions. Computer Vision – ECCV 2016. - Yang, J., Zhang, H., Li, F., Zou, X., Li, C., & Gao, J. (2023). Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V. arXiv. - Bai, S., Chen, K., Liu, X., Wang, J., Ge, W., Song, S., Dang, K., Wang, P., Wang, S., Tang, J., Zhong, H., Zhu, Y., Yang, M., Li, Z., Wan, J., Wang, P., Ding, W., Fu, Z., Xu, Y., Ye, J., Zhang, X., Xie, T., Cheng, Z., Zhang, H., Yang, Z., Xu, H., & Lin, J. (2025). Qwen2.5-VL Technical Report. arXiv. - Zhu, J., Wang, W., Chen, Z., Liu, Z., Ye, S., Gu, L., Tian, H., Duan, Y., Su, W., Shao, J., et al. (2025). InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models. arXiv. - Google. (2025a). Gemini 2.5 Flash. DeepMind. - Google. (2025b). Gemini 2.5 Pro. DeepMind. - Hong, W., Wang, W., Ding, M., Yu, W., Lv, Q., Wang, Y., Cheng, Y., Huang, S., Ji, J., Xue, Z., et al. (2024). CogVLM2: Visual Language Models for Image and Video Understanding. arXiv. - Team, V., Hong, W., Yu, W., Gu, X., Wang, G., Gan, G., Tang, H., Cheng, J., Qi, J., Ji, J., Pan, L., Duan, S., Wang, W., Wang, Y., Cheng, Y., He, Z., Su, Z., Yang, Z., Pan, Z., Zeng, A., Wang, B., Chen, B., Shi, B., Pang, C., Zhang, C., Yin, D., Yang, F., Chen, G., Li, H., Zhu, J., Chen, J., Xu, J., Xu, J., Chen, J., Lin, J., Chen, J., Wang, J., Chen, J., Lei, L., Gong, L., Pan, L., Liu, M., Xu, M., Zhang, M., Zheng, Q., Lyu, R., Tu, S., Yang, S., Meng, S., Zhong, S., Huang, S., Zhao, S., Xue, S., Zhang, T., Luo, T., Hao, T., Tong, T., Jia, W., Li, W., Liu, X., Zhang, X., Lyu, X., Zhang, X., Fan, X., Huang, X., Xue, Y., Wang, Y., Wang, Y., Wang, Y., An, Y., Du, Y., Huang, Y., Niu, Y., Shi, Y., Wang, Y., Wang, Y., Yue, Y., Li, Y., Liu, Y., Zhang, Y., Wang, Y., Zhang, Y., Xue, Z., Du, Z., Hou, Z., Wang, Z., Zhang, P., Liu, D., Xu, B., Li, J., Huang, M., Dong, Y., & Tang, J. (2025b). GLM-4.5V and GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning. arXiv. - OpenAI. (2024). GPT-4o. - Anthropic. (2024). Claude 3.5 Sonnet. - Li, M., Zhong, J., Zhao, S., Lai, Y., Zhang, H., Zhu, W. B., & Zhang, K. (2025). Think or Not Think: A Study of Explicit Thinking in Rule-Based Visual Reinforcement Fine-Tuning. arXiv. - Kirillov, A., Mintun, E., Ravi, N., Mao, H., Rolland, C., Gustafson, L., Xiao, T., Whitehead, S., Berg, A. C., Lo, W.-Y., Dollar, P., & Girshick, R. (2023). Segment Anything. arXiv. - Kuznetsova, A., Rom, H., Alldrin, N., Uijlings, J., Krasin, I., Pont-Tuset, J., Kamali, S., Popov, S., Malloci, M., Kolesnikov, A., et al. (2020). The Open Images Dataset V4: Unified Image Classification, Object Detection, and Visual Relationship Detection at Scale. International Journal of Computer Vision. - Lin, T., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Dollár, P., & Zitnick, C. L. (2014). Microsoft COCO: Common Objects in Context. European Conference on Computer Vision. - Cirik, V., Morency, L., & Berg-Kirkpatrick, T. (2018). Visual Referring Expression Recognition: What Do Systems Actually Learn? arXiv. - Akula, A. R., Gella, S., Al-Onaizan, Y., Zhu, S., & Reddy, S. (2020). Words Aren’t Enough, Their Order Matters: On the Robustness of Grounding Visual Referring Expressions. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. - Chen, Z., Wang, P., Ma, L., Wong, K. K., & Wu, Q. (2020). Cops-Ref: A New Dataset and Task on Compositional Referring Expression Comprehension. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).