Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Fähigkeit von Künstlicher Intelligenz, natürliche Sprache zu verstehen und visuelle Informationen zu verarbeiten, ist ein zentrales Forschungsfeld, insbesondere im Bereich der Multimodalen Großen Sprachmodelle (MLLMs). Eine Schlüsselaufgabe in diesem Kontext ist die Referring Expression Comprehension (REC), bei der ein Sprachausdruck einem spezifischen Bereich in einem Bild zugeordnet werden muss. Traditionelle Benchmarks zur Bewertung dieser Fähigkeit, wie RefCOCO, RefCOCO+ und RefCOCOg, haben zwar zur schnellen Entwicklung von MLLMs beigetragen, weisen jedoch signifikante Einschränkungen auf, die eine genaue Beurteilung des visuellen Denkvermögens erschweren.
Die Analyse der gängigen REC-Benchmarks offenbart mehrere Schwachstellen:
Diese Faktoren tragen dazu bei, dass MLLMs auf diesen Benchmarks hohe Genauigkeitswerte erzielen, die möglicherweise nicht ihre tatsächlichen visuellen Denkfähigkeiten widerspiegeln. Es besteht die Notwendigkeit für anspruchsvollere Benchmarks, die eine tiefere textuelle und visuelle Argumentation erfordern.
Als Reaktion auf diese Herausforderungen wurde Ref-Adv entwickelt – eine moderne REC-Benchmark, die darauf abzielt, "Shortcuts" zu unterbinden und eine umfassendere Bewertung des visuellen Denkvermögens von MLLMs zu ermöglichen. Ref-Adv zeichnet sich durch folgende Merkmale aus:
Die Erstellung von Ref-Adv erfolgte über einen mehrstufigen Prozess, der sowohl LLM-gestützte Generierung als auch menschliche Verifikation umfasst:
Eine zweistufige LLM-gestützte Pipeline, die GPT-4o nutzt, wurde implementiert, um Referenzausdrücke zu generieren:
Um die Qualität und Eindeutigkeit der generierten Daten zu gewährleisten, erfolgte eine umfassende menschliche Verifikation. Drei Annotatoren prüften pro Bild-Text-Paar die Korrektheit und Eindeutigkeit des Ausdrucks sowie die Existenz von "Hard Distractors". Nur Paare, bei denen alle drei Annotatoren übereinstimmten, wurden in das Dataset aufgenommen.
Umfassende Analysen bestätigen die höhere Qualität und den erhöhten Schwierigkeitsgrad von Ref-Adv im Vergleich zu bestehenden Benchmarks:
Die Evaluierung einer breiten Palette moderner MLLMs auf Ref-Adv, darunter Modelle der Qwen-VL-Serie, InternVL-3-Serie, Gemini 2.5-Flash, Gemini 2.5-Pro, CogVLM-Grounding, GLM-4.5V, GPT-4o und Claude-3.5 Sonnet, ergab einen signifikanten Leistungsabfall im Vergleich zu ihren hohen Ergebnissen auf RefCOCO(+/g). Dies deutet auf eine Überschätzung der visuellen Denkfähigkeiten dieser Modelle und ihre Abhängigkeit von "Shortcuts" hin.
Die Integration von "Chain-of-Thought" (CoT)-Prompts, die Modelle dazu anleiten, ihre Denkprozesse explizit in mehreren Schritten darzulegen, zeigte eine generelle Verbesserung der Leistung auf Ref-Adv. Dies unterstreicht die erhöhte Denkaufgabe, die Ref-Adv stellt, und die Relevanz von CoT-Ansätzen für komplexere visuelle Denkaufgaben.
Ref-Adv repräsentiert einen wichtigen Schritt in der Entwicklung von Benchmarks für die Bewertung des visuellen Denkvermögens von MLLMs. Durch die gezielte Beseitigung von "Shortcuts" und die Einführung von "Hard Distractors" sowie komplexen sprachlichen Ausdrücken, bietet Ref-Adv eine realistischere und anspruchsvollere Testumgebung. Die Ergebnisse der Evaluierung aktueller MLLMs auf dieser Benchmark zeigen, dass trotz beeindruckender Fortschritte noch erhebliche Lücken im visuellen Denken und der Erdungsfähigkeit bestehen. Ref-Adv soll als Leitfaden für zukünftige Entwicklungen dienen, um robustere und leistungsfähigere MLLMs zu entwickeln, die in der Lage sind, reale visuelle Komplexität zu bewältigen. Ein öffentlich zugängliches Teil-Dataset, Ref-Adv-s, wird zur Verfügung gestellt, um die reproduzierbare Evaluierung und weitere Forschung in diesem Bereich zu fördern.
Bibliography - Dong, Q., Yang, K., Ju, L., Zhao, H., Zhang, Y., Wang, Y., Zeng, H., Lu, J., & Fu, Y. (2026). Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks. arXiv. - Dong, Q., Figueroa, L., Zhao, H., Kafle, K., Kuen, J., Ding, Z., Cohen, S., & Fu, Y. (2025). CoT Referring: Improving Referring Expression Tasks with Grounded Reasoning. arXiv. - Kazemzadeh, S., Ordonez, V., Matten, M., & Berg, T. (2014). ReferItGame: Referring to Objects in Photographs of Natural Scenes. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). - Mao, J., Huang, J., Toshev, A., Camburu, O., Yuille, A., & Murphy, K. (2016). Generation and Comprehension of Unambiguous Object Descriptions. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). - Yu, L., Poirson, P., Yang, S., Berg, A. C., & Berg, T. L. (2016). Modeling Context in Referring Expressions. Computer Vision – ECCV 2016. - Yang, J., Zhang, H., Li, F., Zou, X., Li, C., & Gao, J. (2023). Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V. arXiv. - Bai, S., Chen, K., Liu, X., Wang, J., Ge, W., Song, S., Dang, K., Wang, P., Wang, S., Tang, J., Zhong, H., Zhu, Y., Yang, M., Li, Z., Wan, J., Wang, P., Ding, W., Fu, Z., Xu, Y., Ye, J., Zhang, X., Xie, T., Cheng, Z., Zhang, H., Yang, Z., Xu, H., & Lin, J. (2025). Qwen2.5-VL Technical Report. arXiv. - Zhu, J., Wang, W., Chen, Z., Liu, Z., Ye, S., Gu, L., Tian, H., Duan, Y., Su, W., Shao, J., et al. (2025). InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models. arXiv. - Google. (2025a). Gemini 2.5 Flash. DeepMind. - Google. (2025b). Gemini 2.5 Pro. DeepMind. - Hong, W., Wang, W., Ding, M., Yu, W., Lv, Q., Wang, Y., Cheng, Y., Huang, S., Ji, J., Xue, Z., et al. (2024). CogVLM2: Visual Language Models for Image and Video Understanding. arXiv. - Team, V., Hong, W., Yu, W., Gu, X., Wang, G., Gan, G., Tang, H., Cheng, J., Qi, J., Ji, J., Pan, L., Duan, S., Wang, W., Wang, Y., Cheng, Y., He, Z., Su, Z., Yang, Z., Pan, Z., Zeng, A., Wang, B., Chen, B., Shi, B., Pang, C., Zhang, C., Yin, D., Yang, F., Chen, G., Li, H., Zhu, J., Chen, J., Xu, J., Xu, J., Chen, J., Lin, J., Chen, J., Wang, J., Chen, J., Lei, L., Gong, L., Pan, L., Liu, M., Xu, M., Zhang, M., Zheng, Q., Lyu, R., Tu, S., Yang, S., Meng, S., Zhong, S., Huang, S., Zhao, S., Xue, S., Zhang, T., Luo, T., Hao, T., Tong, T., Jia, W., Li, W., Liu, X., Zhang, X., Lyu, X., Zhang, X., Fan, X., Huang, X., Xue, Y., Wang, Y., Wang, Y., Wang, Y., An, Y., Du, Y., Huang, Y., Niu, Y., Shi, Y., Wang, Y., Wang, Y., Yue, Y., Li, Y., Liu, Y., Zhang, Y., Wang, Y., Zhang, Y., Xue, Z., Du, Z., Hou, Z., Wang, Z., Zhang, P., Liu, D., Xu, B., Li, J., Huang, M., Dong, Y., & Tang, J. (2025b). GLM-4.5V and GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning. arXiv. - OpenAI. (2024). GPT-4o. - Anthropic. (2024). Claude 3.5 Sonnet. - Li, M., Zhong, J., Zhao, S., Lai, Y., Zhang, H., Zhu, W. B., & Zhang, K. (2025). Think or Not Think: A Study of Explicit Thinking in Rule-Based Visual Reinforcement Fine-Tuning. arXiv. - Kirillov, A., Mintun, E., Ravi, N., Mao, H., Rolland, C., Gustafson, L., Xiao, T., Whitehead, S., Berg, A. C., Lo, W.-Y., Dollar, P., & Girshick, R. (2023). Segment Anything. arXiv. - Kuznetsova, A., Rom, H., Alldrin, N., Uijlings, J., Krasin, I., Pont-Tuset, J., Kamali, S., Popov, S., Malloci, M., Kolesnikov, A., et al. (2020). The Open Images Dataset V4: Unified Image Classification, Object Detection, and Visual Relationship Detection at Scale. International Journal of Computer Vision. - Lin, T., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Dollár, P., & Zitnick, C. L. (2014). Microsoft COCO: Common Objects in Context. European Conference on Computer Vision. - Cirik, V., Morency, L., & Berg-Kirkpatrick, T. (2018). Visual Referring Expression Recognition: What Do Systems Actually Learn? arXiv. - Akula, A. R., Gella, S., Al-Onaizan, Y., Zhu, S., & Reddy, S. (2020). Words Aren’t Enough, Their Order Matters: On the Robustness of Grounding Visual Referring Expressions. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. - Chen, Z., Wang, P., Ma, L., Wong, K. K., & Wu, Q. (2020). Cops-Ref: A New Dataset and Task on Compositional Referring Expression Comprehension. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen