KI für Ihr Unternehmen – Jetzt Demo buchen

Herausforderungen beim visuellen Denken von multimodalen großen Sprachmodellen

Kategorien:
No items found.
Freigegeben:
January 13, 2026

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Multimodale Large Language Models (MLLMs) zeigen deutliche Schwächen im visuellen Denken, verglichen mit menschlichen Fähigkeiten.
    • Aktuelle Benchmarks wie ZeroBench und VisFactor demonstrieren, dass selbst die fortschrittlichsten MLLMs bei komplexen visuellen Aufgaben, die über reine Textextraktion hinausgehen, versagen.
    • Die Leistung von MLLMs bei visuellen Aufgaben liegt oft unter dem Niveau eines sechsjährigen Kindes und weit unter dem von Erwachsenen.
    • Fehleranalysen zeigen, dass MLLMs primär an der visuellen Interpretation scheitern, weniger an der logischen Schlussfolgerung, sobald die visuellen Informationen korrekt erfasst wurden.
    • Die Entwicklung robusterer visueller Fähigkeiten erfordert neue Ansätze im Training, die über textbasierte Logik hinausgehen und feinere visuelle Details berücksichtigen.

    Die rapide Entwicklung im Bereich der Künstlichen Intelligenz (KI) hat in den letzten Jahren beeindruckende Fortschritte hervorgebracht, insbesondere bei Large Language Models (LLMs) und Multimodalen Large Language Models (MLLMs). Diese Modelle zeigen bemerkenswerte Fähigkeiten in einer Vielzahl von textbasierten Aufgaben. Doch wenn es um das visuelle Denken geht, offenbart sich ein signifikantes Defizit, das selbst die fortschrittlichsten Systeme im Vergleich zu menschlichen Fähigkeiten, insbesondere denen von Kleinkindern, in den Schatten stellt.

    Das ungelöste Problem des visuellen Denkens bei MLLMs

    Neue Forschungsarbeiten und Benchmarks beleuchten die Grenzen aktueller MLLMs im Bereich des visuellen Denkens. Während MLLMs beeindruckende Leistungen in der Bilderkennung und -beschreibung erbringen können, scheitern sie oft an Aufgaben, die ein tieferes Verständnis visueller Zusammenhänge erfordern. Dies betrifft insbesondere Aufgaben, die nicht allein durch sprachliche Beschreibungen gelöst werden können, sondern ein echtes visuelles Verständnis voraussetzen.

    ZeroBench: Ein unmöglicher Benchmark für aktuelle Modelle

    Ein Beispiel hierfür ist der kürzlich vorgestellte ZeroBench, ein leichter, aber anspruchsvoller Benchmark für visuelles Denken in MLLMs. Dieser Benchmark besteht aus 100 manuell erstellten Fragen und 334 weniger schwierigen Unterfragen. Die Bewertung von 20 führenden MLLMs auf ZeroBench ergab, dass alle Modelle eine Genauigkeit von 0,0 % erzielten. Dies unterstreicht, dass die Fragen in ZeroBench die Fähigkeiten der aktuellen Modelle bei weitem übersteigen. Selbst die besten Modelle erreichen bei Unterfragen, die für Menschen trivial sind, nur geringe Erfolgsquoten.

    Die Entwickler von ZeroBench stellten fest, dass MLLMs erhebliche Mängel bei der Interpretation von Bildern aufweisen und in einigen Aspekten eine schlechtere räumliche Kognition als kleine Kinder oder Tiere zeigen. Trotzdem erzielen sie bei vielen gängigen visuellen Benchmarks hohe Punktzahlen. Dies liegt daran, dass diese Benchmarks oft nicht ausreichend anspruchsvoll sind, um die tatsächlichen Grenzen der Modelle aufzuzeigen. ZeroBench wurde gezielt so konzipiert, dass es für die aktuellen Modelle "unmöglich" ist, um einen langfristig relevanten Maßstab für zukünftige Fortschritte zu schaffen.

    VisFactor: Menschliche kognitive Benchmarks enthüllen grundlegende visuelle Lücken

    Eine ähnliche Erkenntnis liefert die Benchmark-Suite VisFactor, die 20 vision-zentrierte Untertests aus etablierten kognitionspsychologischen Bewertungen digitalisiert. Diese Tests decken vier Kernbereiche der menschlichen visuellen Kognition ab: Visualisierung und räumliche Verarbeitung, Wahrnehmung und Verschluss, Gedächtnis und logisches Denken. Bei der Bewertung von 20 MLLMs aus verschiedenen Familien (u.a. GPT, Gemini, Claude) erreichte das beste Modell lediglich eine Punktzahl von 25,19 von 100. Dies ist ein deutlicher Kontrast zu menschlichen Leistungen, die bei vergleichbaren Aufgaben deutlich höher liegen.

    VisFactor wurde entwickelt, um die Lücke zwischen der beeindruckenden Leistung von MLLMs bei hochrangigen Benchmarks und deren Schwierigkeiten bei grundlegenden visuellen Denkaufgaben zu untersuchen, die von Menschen mühelos gelöst werden. Die Studie zeigte konsistente Fehler bei Aufgaben wie mentaler Rotation, räumlicher Schlussfolgerung und Figur-Grund-Diskriminierung, unabhängig von Modellgröße oder Prompting-Strategie. Dies deutet darauf hin, dass die aktuellen Leistungsgewinne von MLLMs bei hochrangigen Benchmarks nicht unbedingt eine menschenähnliche, niedrigschwellige visuelle Kognition widerspiegeln.

    VisuLogic: Bewertung des visuellen Denkens in MLLMs

    Ein weiterer Benchmark, VisuLogic, zielt darauf ab, das visuelle Denken in multimodalen Modellen ohne Vermischung mit rein textbasiertem Denken zu bewerten. VisuLogic umfasst 1.000 von Menschen verifizierte Probleme in sechs Kategorien, darunter quantitative Verschiebungen, räumliche Beziehungen und Attributvergleiche. Die Ergebnisse zeigen, dass die meisten Modelle eine Genauigkeit von unter 30 % erreichen – nur geringfügig über der Zufallsbasis von 25 % und weit unter den 51,4 % der Menschen. Dies deckt erhebliche Lücken im visuellen Denken auf.

    Diese Ergebnisse deuten darauf hin, dass die rein textbasierte Logik, die in vielen MLLMs dominant ist, unzureichend ist, um die reichhaltigen visuellen Informationen zu erfassen, die für solche Aufgaben erforderlich sind. Selbst wenn detaillierte Bildbeschreibungen zur Verfügung gestellt werden, fehlt den Modellen oft die Fähigkeit, kritische visuelle Details zu interpretieren, die für mehrstufige logische Schlussfolgerungen notwendig sind.

    Die Diskrepanz zwischen visueller Wahrnehmung und Verständnis

    Die Analysen dieser Benchmarks zeigen, dass MLLMs zwar gut darin sind, Objekte zu identifizieren und Bilder zu beschreiben, aber Schwierigkeiten haben, die Beziehungen zwischen Objekten zu verstehen, räumliche Anordnungen zu interpretieren oder komplexe visuelle Probleme zu lösen, die mehrere Denkschritte erfordern. Dies wird als "Vision Language Models are blind" beschrieben, was bedeutet, dass sie zwar "sehen", aber nicht wirklich "wahrnehmen" oder "verstehen" können.

    Ein zentrales Problem ist die Tendenz der Modelle, visuelle Hinweise in textuelle Beschreibungen zu übersetzen und dann rein sprachlich zu argumentieren. Dieser Ansatz kann zu irreführenden Bewertungen der visuellen Denkfähigkeiten führen, da die Ergebnisse eher auf sprachlicher Logik als auf echtem visuellen Verständnis basieren. Die Fähigkeit, feinere Details zu erkennen, wie beispielsweise die korrekte Zählung von Objekten, die Unterscheidung räumlicher Beziehungen oder das Verständnis physikalischer Interaktionen in einer Szene, bleibt eine große Herausforderung.

    Fehleranalyse: Visuelle Interpretation als Hauptproblem

    Eine detaillierte Fehleranalyse auf ZeroBench zeigte, dass die meisten Fehler auf Probleme bei der visuellen Interpretation zurückzuführen sind und weniger auf logische Denkfehler. Dies bedeutet, dass die Modelle oft die visuellen Informationen nicht korrekt erfassen, was wiederum die nachfolgenden logischen Schritte beeinträchtigt. Im Gegensatz dazu zeigten frühere Studien an älteren LMMs, dass logische Fehler häufiger waren. Dies könnte darauf hindeuten, dass die Modellentwicklung sich stärker auf die Verbesserung der Denkfähigkeiten als auf die visuellen Fähigkeiten konzentriert hat.

    Spezifische wiederkehrende Fehler umfassen:

    • Falsches Zählen von Objekten.
    • Unfähigkeit, feinkörnige Details "zu sehen" oder Informationen präzise zu extrahieren.
    • Schwierigkeiten beim Verständnis räumlicher Beziehungen (z.B. Spiegelungen, Rotationen).
    • Mangelndes Verständnis von physikalischen Interaktionen oder strategischen Planung in visuellen Szenarien.

    Zukünftige Perspektiven und die Rolle der KI-Entwicklung

    Die Ergebnisse dieser Benchmarks verdeutlichen den Bedarf an neuen Forschungsansätzen. Es ist entscheidend, dass zukünftige MLLMs nicht nur textbasierte Logik beherrschen, sondern ein robusteres und menschenähnlicheres visuelles Verständnis entwickeln. Dies könnte durch folgende Maßnahmen erreicht werden:

    • Curriculum-basiertes Pre-Training: Ein Training, das psychometrische Mikroaufgaben mit natürlichen Bildern verknüpft, um grundlegende visuelle Fähigkeiten zu stärken.
    • Einbeziehung von verkörperten oder 3D-Daten: Die Nutzung von Daten, die räumliche Beziehungen besser verankern, um das Modellverständnis von dreidimensionalen Umgebungen zu verbessern.
    • Faktor-abgestimmte Verlustfunktionen: Entwicklung von Verlustfunktionen, die explizit auf niedrigschwellige Wahrnehmungsfähigkeiten abzielen.
    • Höhere Auflösungseingaben: Die Möglichkeit, Bilder mit deutlich höherer Auflösung zu verarbeiten, könnte ein Schlüsselfaktor für erhebliche Fortschritte sein, da aktuelle MLLMs aus Rechengründen oft Bilder herunterrechnen müssen.

    Die Entwicklung von "Hard Evals" wie ZeroBench und VisuLogic ist entscheidend, um den Fortschritt in der KI-Forschung zu messen und sicherzustellen, dass neue Modelle nicht nur auf bestehenden Benchmarks gut abschneiden, sondern auch echte, menschenähnliche kognitive Fähigkeiten im visuellen Bereich aufweisen. Nur durch das Schließen dieser Lücke können MLLMs ihr volles Potenzial entfalten und in komplexen Anwendungsbereichen, die ein tiefes visuelles Verständnis erfordern, erfolgreich eingesetzt werden.

    Bibliography - Agrawal, P., Antoniak, S., Hanna, E. B., Bout, B., Chaplot, D., Chudnovsky, J., Costa, D., De Monicault, B., Garg, S., Gervet, T., et al. Pixtral 12b. arXiv preprint arXiv:2410.07073, 2024. - AI, M. Mistral AI API (0.0.2). https://docs.mistral.ai/api/, 2025a. - AI, R. Reka AI API. https://platform.reka.ai/dashboard, 2025b. - Anthropic. Introducing claude 3.5 sonnet — anthropic. https://www.anthropic.com/news/claude-3-5-sonnet. (Accessed on 07/03/2024). - Anthropic, A. The claude 3 model family: Opus, sonnet, haiku. Claude-3 Model Card, 2024. - API, A. AI/ML API Inference Pricing. https://aimlapi.com/ai-ml-api-pricing, 2025. - Beeching, E., Tunstall, L., and Rush, S. Scaling Test Time Compute with Open Models. https://huggingface.co/spaces/HuggingFaceH4/blogpost-scaling-test-time-compute, December 2024. - Bitton-Guetta, N., Slobodkin, A., Maimon, A., Habba, E., Rassin, R., Bitton, Y., Szpektor, I., Globerson, A., and Elovici, Y. Visual riddles: a commonsense and world knowledge challenge for large vision and language models. arXiv preprint arXiv:2407.19474, 2024. - Cai, H., Yang, Y., and Hu, W. MM-IQ: Benchmarking Human-Like Abstraction and Reasoning in Multimodal Models. arXiv preprint arXiv:2502.00698, 2025. - Chen, P., Ye, J., Wang, G., Li, Y., Deng, Z., Li, W., Li, T., Duan, H., Huang, Z., Su, Y., et al. Gmai-mmbench: A comprehensive multimodal evaluation benchmark towards general medical ai. arXiv preprint arXiv:2408.03361, 2024. - Cherian, A., Peng, K., Lohit, S., Matthiesen, J., Smith, K., and Tenenbaum, J. B. Evaluating Large Vision-and-Language Models on Children’s Mathematical Olympiads. arXiv preprint arXiv:2406.15736, 2024. - Chollet, F. On the measure of intelligence. arXiv preprint arXiv:1911.01547, 2019. - Chollet, F. OpenAI o3 Breakthrough High Score on ARC-AGI-Pub. https://arcprize.org/blog/oai-o3-pub-breakthrough/, December 2024. - Chollet, F., Knoop, M., Kamradt, G., and Landers, B. Arc prize 2024: Technical report. arXiv preprint arXiv:2412.04604, 2024. - Dai, W., Lee, N., Wang, B., Yang, Z., Liu, Z., Barker, J., Rintamaki, T., Shoeybi, M., Catanzaro, B., and Ping, W. Nvlm: Open frontier-class multimodal llms. arXiv preprint arXiv:2409.11402, 2024. - Dubey, A., Jauhri, A., Pandey, A., Kadian, A., Al-Dahle, A., Letman, A., Mathur, A., Schelten, A., Yang, A., Fan, A., et al. The llama 3 herd of models. arXiv preprint arXiv:2407.21783, 2024. - Fu, X., Hu, Y., Li, B., Feng, Y., Wang, H., Lin, X., Roth, D., Smith, N. A., Ma, W.-C., and Krishna, R. Blink: Multimodal large language models can see but not perceive. In European Conference on Computer Vision, pp. 148–166. Springer, 2025. - Google. Vertex AI. https://cloud.google.com/vertex-ai/, 2025. - Google DeepMind. Gemini 2.0 flash thinking experimental, December 2024. URL https://deepmind.google/technologies/gemini/. Large language model. - Hendrycks, D., Burns, C., Basart, S., Zou, A., Mazeika, M., Song, D., and Steinhardt, J. Measuring massive multitask language understanding. arXiv preprint arXiv:2009.03300, 2020. - Huang, J.-T., Dai, D., Huang, J.-Y., Yuan, Y., Liu, X., Wang, W., Jiao, W., He, P., Tu, Z., and Duan, H. Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs. arXiv preprint arXiv:2502.16435, 2025. - Johnson, J., Hariharan, B., Van Der Maaten, L., Fei-Fei, L., Lawrence Zitnick, C., and Girshick, R. Clevr: A diagnostic dataset for compositional language and elementary visual reasoning. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 2901–2910, 2017. - Jones, A. L. Scaling scaling laws with board games. arXiv preprint arXiv:2104.03113, 2021. - Kamradt, G. Llmtest_needleinahaystack. https://github.com/gkamradt/LLMTest_NeedleInAHaystack, 2023. Accessed: 2025-01-16. - Kazemi, M., Dikkala, N., Anand, A., Devic, P., Dasgupta, I., Liu, F., Fatemi, B., Awasthi, P., Guo, D., Gollapudi, S., et al. Remi: A dataset for reasoning with multiple images. arXiv preprint arXiv:2406.09175, 2024. - Kojima, T., Gu, S. S., Reid, M., Matsuo, Y., and Iwasawa, Y. Large language models are zero-shot reasoners. Advances in neural information processing systems, 35:22199–22213, 2022. - Kwon, W., Li, Z., Zhuang, S., Sheng, Y., Zheng, L., Yu, C. H., Gonzalez, J. E., Zhang, H., and Stoica, I. Efficient memory management for large language model serving with pagedattention. In Proceedings of the ACM SIGOPS 29th Symposium on Operating Systems Principles, 2023. - Li, H., Zhang, Y., Ding, J., Li, Q., and Zhang, P. Visual Room 2.0: Seeing is Not Understanding for MLLMs. arXiv preprint arXiv:2511.12928, 2025. - Li, B., Wang, R., Wang, G., Ge, Y., Ge, Y., and Shan, Y. Seed-bench: Benchmarking multimodal llms with generative comprehension. arXiv preprint arXiv:2307.16125, 2023. - Li, J., Lu, W., Fei, H., Luo, M., Dai, M., Xia, M., Jin, Y., Gan, Z., Qi, D., Fu, C., et al. A survey on benchmarks of multimodal large language models. arXiv preprint arXiv:2408.08632, 2024. - Liu, Y., Duan, H., Zhang, Y., Li, B., Zhang, S., Zhao, W., Yuan, Y., Wang, J., He, C., Liu, Z., et al. Mmbench: Is your multi-modal model an all-around player? In European conference on computer vision, pp. 216–233. Springer, 2025. - Lu, P., Bansal, H., Xia, T., Liu, J., Li, C., Hajishirzi, H., Cheng, H., Chang, K.-W., Galley, M., and Gao, J. Mathvista: Evaluating mathematical reasoning of foundation models in visual contexts. arXiv preprint arXiv:2310.02255, 2023. - Mensink, T., Uijlings, J., Castrejon, L., Goel, A., Cadar, F., Zhou, H., Sha, F., Araujo, A., and Ferrari, V. Encyclopedic vqa: Visual questions about detailed properties of fine-grained categories. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 3113–3124, 2023. - Miller, E. Adding error bars to evals: A statistical approach to language model evaluations. arXiv preprint arXiv:2411.00640, 2024. - Muhtar, D., Li, Z., Gu, F., Zhang, X., and Xiao, P. Lhrs-bot: Empowering remote sensing with vgi-enhanced large multimodal language model. arXiv preprint arXiv:2402.02544, 2024. - Northcutt, C. G., Athalye, A., and Mueller, J. Pervasive label errors in test sets destabilize machine learning benchmarks. arXiv preprint arXiv:2103.14749, 2021. - OpenAI. Hello gpt-4o —openai. https://openai.com/index/hello-gpt-4o/. (Accessed on 05/31/2024). - OpenAI. Introducing ChatGPT Pro. https://openai.com/index/introducing-chatgpt-pro/, 2024a. Large language model. - OpenAI. Learning to reason with LLMs. https://openai.com/index/learning-to-reason-with-llms/, September 2024b. - OpenAI. OpenAI o1: A Large Language Model for Complex Reasoning. OpenAI website, December 2024. https://openai.com/o1/. - OpenAI. API Reference. https://platform.openai.com/docs/api-reference, 2025. - OpenCompass Contributors. Opencompass: A universal evaluation platform for foundation models. https://github.com/open-compass/opencompass, 2023. - Padlewski, P., Bain, M., Henderson, M., Zhu, Z., Relan, N., Pham, H., Ong, D., Aleksiev, K., Ormazabal, A., Phua, S., et al. Vibe-eval: A hard evaluation suite for measuring progress of multimodal language models. arXiv preprint arXiv:2405.02287, 2024. - Phan, L., Gatti, A., Han, Z., Li, N., Hu, J., Zhang, H., Shaaban, M., Ling, J., Shi, S., Choi, M., et al. Humanity’s last exam, 2025. URL https://arxiv.org/abs/2501.14249. - Qwen-Team. Qvq: To see the world with wisdom, December 2024. URL https://qwenlm.github.io/blog/qvq-72b-preview/. - Rahmanzadehgervi, P., Bolton, L., Taesiri, M. R., and Nguyen, A. T. Vision language models are blind. In Proceedings of the Asian Conference on Computer Vision, pp. 18–34, 2024. - Ramakrishnan, S. K., Wijmans, E., Kraehenbuehl, P., and Koltun, V. Does spatial cognition emerge in frontier models? arXiv preprint arXiv:2410.06468, 2024. - Reid, M., Savinov, N., Teplyashin, D., Lepikhin, D., Lillicrap, T., Alayrac, J.-b., Soricut, R., Lazaridou, A., Firat, O., Schrittwieser, J., et al. Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context. arXiv preprint arXiv:2403.05530, 2024. - Rein, D., Hou, B. L., Stickland, A. C., Petty, J., Pang, R. Y., Dirani, J., Michael, J., and Bowman, S. R. Gpqa: A graduate-level google-proof q&a benchmark. arXiv preprint arXiv:2311.12022, 2023. - Reka-Team, R., Ormazabal, A., Zheng, C., d’Autume, C. d. M., Yogatama, D., Fu, D., Ong, D., Chen, E., Lamprecht, E., Pham, H., et al. Reka core, flash, and edge: A series of powerful multimodal language models. arXiv preprint arXiv:2404.12387, 2024. - Roberts, J., Han, K., and Albanie, S. GRAB: A Challenging GRaph Analysis Benchmark for Large Multimodal Models. arXiv preprint arXiv:2408.11817, 2024a. - Roberts, J., Han, K., Houlsby, N., and Albanie, S. SciFIBench: Benchmarking Large Multimodal Models for Scientific Figure Interpretation. arXiv preprint arXiv:2405.08807, 2024b. - Roberts, J., Lüddecke, T., Sheikh, R., Han, K., and Albanie, S. Charting new territories: Exploring the geographic and geospatial capabilities of multimodal LLMs. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 554–563, 2024c. - Roberts, J., Taesiri, M. R., Sharma, A., Gupta, A., Roberts, S., Croitoru, I., Bogolin, S.-V., Tang, J., Langer, F., Raina, V., et al. ZeroBench: An Impossible Visual Benchmark for Contemporary Large Multimodal Models. arXiv preprint arXiv:2502.09696, 2025. - Schmidgall, S., Su, Y., Wang, Z., Sun, X., Wu, J., Yu, X., Liu, J., Liu, Z., and Barsoum, E. Agent laboratory: Using llm agents as research assistants. arXiv preprint arXiv:2501.04227, 2025. - Snell, C., Lee, J., Xu, K., and Kumar, A. Scaling llm test-time compute optimally can be more effective than scaling model parameters. arXiv preprint arXiv:2408.03314, 2024. - Srivastava, A., Rastogi, A., Rao, A., Shoeb, A. A. M., Abid, A., Fisch, A., Brown, A. R., Santoro, A., Gupta, A., Garriga-Alonso, A., et al. Beyond the imitation game: Quantifying and extrapolating the capabilities of language models. arXiv preprint arXiv:2206.04615, 2022. - Taesiri, M. R., Feng, T., Bezemer, C.-P., and Nguyen, A. Glitchbench: Can large multimodal models detect video game glitches? In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 22444–22455, 2024. - Team, G., Anil, R., Borgeaud, S., Wu, Y., Alayrac, J.-B., Yu, J., Soricut, R., Schalkwyk, J., Dai, A. M., Hauth, A., et al. Gemini: a family of highly capable multimodal models. arXiv preprint arXiv:2312.11805, 2023. - Wang, P., Bai, S., Tan, S., Wang, S., Fan, Z., Bai, J., Chen, K., Liu, X., Wang, J., Ge, W., et al. Qwen2-vl: Enhancing vision-language model’s perception of the world at any resolution. arXiv preprint arXiv:2409.12191, 2024a. - Wang, Z., Xia, M., He, L., Chen, H., Liu, Y., Zhu, R., Liang, K., Wu, X., Liu, H., Malladi, S., Chevalier, A., Arora, S., and Chen, D. Charxiv: Charting gaps in realistic chart understanding in multimodal llms. arXiv preprint arXiv:2406.18521, 2024b. - Wei, J., Wang, X., Schuurmans, D., Bosma, M., Xia, F., Chi, E., Le, Q. V., Zhou, D., et al. Chain-of-thought prompting elicits reasoning in large language models. Advances in neural information processing systems, 35:24824–24837, 2022. - Weng, Z., Gomez, L., Webb, T. W., and Bashivan, P. Caption This, Reason That: VLMs Caught in the Middle. arXiv preprint arXiv:2505.21538, 2025. - Wolf, T., Debut, L., Sanh, V., Chaumond, J., Delangue, C., Moi, A., Cistac, P., Rault, T., Louf, R., Funtowicz, M., Davison, J., Shleifer, S., von Platen, P., Ma, C., Jernite, Y., Plu, J., Xu, C., Scao, T. L., Gugger, S., Drame, M., Lhoest, Q., and Rush, A. M. ”Transformers: State-of-the-Art Natural Language Processing”. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations, pp. 38–45, Online, October 2020. Association for Computational Linguistics. URL https://www.aclweb.org/anthology/2020.emnlp-demos.6. - Xiao, Y., Sun, E., Liu, T., and Wang, W. Logicvista: Multimodal llm logical reasoning benchmark in visual contexts. arXiv preprint arXiv:2407.04973, 2024. - Xu, F. F., Song, Y., Li, B., Tang, Y., Jain, K., Bao, M., Wang, Z. Z., Zhou, X., Guo, Z., Cao, M., Yang, M., Lu, H. Y., Martin, A., Su, Z., Maben, L., Mehta, R., Chi, W., Jang, L., Xie, Y., Zhou, S., and Neubig, G. Theagentcompany: Benchmarking llm agents on consequential real world tasks, 2024. URL https://arxiv.org/abs/2412.14161. - Xu, W., Wang, J., Wang, W., Chen, Z., Zhou, W., Yang, A., Lu, L., Li, H., Wang, X., Zhu, X., et al. VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models. arXiv preprint arXiv:2504.15279, 2025. - Yang, Z., Li, L., Lin, K., Wang, J., Lin, C.-C., Liu, Z., and Wang, L. The dawn of lmms: Preliminary explorations with gpt-4v (ision). arXiv preprint arXiv:2309.17421, 9(1):1, 2023. - Yu, W., Yang, Z., Li, L., Wang, J., Lin, K., Liu, Z., Wang, X., and Wang, L. Mm-vet: Evaluating large multimodal models for integrated capabilities. arXiv preprint arXiv:2308.02490, 2023. - Zerroug, A., Vaishnav, M., Colin, J., Musslick, S., and Serre, T. A benchmark for compositional visual reasoning. arXiv preprint arXiv:2206.05379, 2022. - Zhang, F., Wu, L., Bai, H., Lin, G., Li, X., Yu, X., Wang, Y., Chen, B., and Keung, J. Humaneval-v: Evaluating visual understanding and reasoning abilities of large multimodal models through coding tasks. arXiv preprint arXiv:2410.12381, 2024. - Zhang, Y., Bai, H., Zhang, R., Gu, J., Zhai, S., Susskind, J., and Jaitly, N. How Far Are We from Intelligent Visual Deductive Reasoning? arXiv preprint arXiv:2403.04732, 2024.

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen