KI für Ihr Unternehmen – Jetzt Demo buchen

Bewertung der Leistungsfähigkeit von Large Vision-Language Models in komplexen Konversationen

Kategorien:
No items found.
Freigegeben:
October 31, 2025

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Neue Benchmarks wie ConvBench und MultiVerse bewerten die Fähigkeiten von Large Vision-Language Models (LVLMs) in komplexen, mehrstufigen visuellen Konversationen.
    • Aktuelle LVLMs, einschliesslich führender Modelle wie GPT-4V, zeigen in diesen anspruchsvollen Szenarien noch erhebliche Schwächen, insbesondere bei der Wahrnehmung, dem logischen Denken und der Kreativität.
    • Die Bewertung erfolgt hierarchisch, von der Wahrnehmung über das logische Denken bis hin zur kreativen Generierung, um eine präzisere Fehlerzuweisung zu ermöglichen.
    • Eine schwache Wahrnehmungsfähigkeit von LVLMs beeinträchtigt nachweislich die nachfolgenden Denk- und Kreativitätsaufgaben.
    • Die Fähigkeit, den Kontext über mehrere Gesprächsrunden hinweg zu bewahren und frühere Informationen zu nutzen, ist entscheidend für die Leistungsfähigkeit von LVLMs.
    • Die Grösse des Sprachmodells korreliert tendenziell mit einer besseren Leistung in mehrstufigen Konversationen.

    Die Entwicklung von Künstlicher Intelligenz (KI) schreitet rasant voran. Insbesondere Large Vision-Language Models (LVLMs), die sowohl visuelle als auch sprachliche Informationen verarbeiten können, eröffnen neue Möglichkeiten für interaktive KI-Assistenten. Diese Modelle sind in der Lage, nicht nur einzelne Fragen zu Bildern zu beantworten, sondern auch komplexe, mehrstufige Dialoge zu führen. Um die Fortschritte und Limitationen dieser Modelle umfassend zu bewerten, wurden neue Benchmarks entwickelt. Dieser Artikel beleuchtet die Herausforderungen und Erkenntnisse aus aktuellen Forschungsarbeiten in diesem Bereich.

    Die Notwendigkeit neuer Bewertungsstandards für LVLMs

    Bestehende Benchmarks für LVLMs konzentrieren sich oft auf einzelne Interaktionen (Single-Turn-Konversationen) oder geschlossene Multiple-Choice-Fragen. Diese Ansätze sind jedoch unzureichend, um die komplexen Fähigkeiten von KI-Assistenten in realen Anwendungsszenarien zu beurteilen, die oft offene und mehrstufige Dialoge erfordern. Hier setzen neuere Benchmarks an, die darauf abzielen, eine tiefere und umfassendere Bewertung zu ermöglichen.

    ConvBench: Ein hierarchischer Ansatz zur Bewertung mehrstufiger visueller Konversationen

    Ein Beispiel für einen solchen neuen Bewertungsstandard ist ConvBench, ein Benchmark, der speziell für die Evaluierung von LVLMs in mehrstufigen visuellen Konversationen entwickelt wurde. ConvBench umfasst 577 sorgfältig kuratierte mehrstufige Dialoge mit insgesamt 215 Aufgaben. Diese Aufgaben sind breit gefächert, offen und ähneln realen Benutzerinteraktionen. Jede Konversation in ConvBench ist hierarchisch strukturiert und prüft nacheinander drei kognitive Fähigkeiten:

    • Wahrnehmung: Die Fähigkeit des Modells, relevante Informationen aus visuellen Eingaben zu extrahieren und zu verstehen.
    • Logisches Denken: Die Fähigkeit, auf Basis der wahrgenommenen visuellen Informationen Schlussfolgerungen zu ziehen und Wissen anzuwenden.
    • Kreativität: Die Fähigkeit, kreative und vielfältige Ausgaben basierend auf dem Bild zu generieren, ohne spezifische Einschränkungen.

    Diese hierarchische Struktur ermöglicht es, die Fähigkeiten des Modells in jeder Phase einer Konversation zu entkoppeln und eine präzisere Fehlerzuweisung vorzunehmen. So kann beispielsweise festgestellt werden, ob ein Fehler in einer Denkaufgabe auf einer unzureichenden Wahrnehmung oder einem fehlerhaften Denkprozess beruht.

    MultiVerse: Eine breitere Perspektive auf mehrstufige VLM-Evaluierung

    MultiVerse erweitert den Ansatz, indem es 647 Dialoge mit durchschnittlich vier Gesprächsrunden aus einer breiten Palette von 12 populären VLM-Evaluierungs-Benchmarks ableitet. Es umfasst 484 Aufgaben und 484 Interaktionsziele, die ein weites Spektrum an Themen abdecken – von Faktenwissen und Wahrnehmung bis hin zu fortgeschrittenen Denkaufgaben wie Mathematik und Programmierung. MultiVerse nutzt eine Checklisten-basierte Bewertungsmethode, die GPT-4o als automatisierten Evaluator einsetzt und die Leistung anhand von 37 Schlüsselkriterien misst, darunter Wahrnehmungsgenauigkeit, sprachliche Klarheit und faktische Korrektheit.

    Zentrale Erkenntnisse aus den Evaluierungen

    Die experimentellen Ergebnisse beider Benchmarks liefern wichtige Einblicke in den aktuellen Stand der LVLMs:

    Umfassende Herausforderungen für aktuelle LVLMs

    Die Benchmarks stellen für moderne LVLMs eine erhebliche Herausforderung dar. Selbst führende Modelle wie GPT-4V erreichen in ConvBench lediglich eine Gesamtpunktzahl von 39,51 %. Dies offenbart eine deutliche Lücke zwischen der Leistung dieser Modelle und menschlichen Fähigkeiten in komplexen, mehrstufigen visuellen Konversationen. Bei MultiVerse erreichen selbst die stärksten Modelle nur eine Erfolgsquote von 50 % in komplexen mehrstufigen Konversationen.

    Die Rolle der Wahrnehmung für logisches Denken und Kreativität

    Eine zentrale Erkenntnis ist, dass eine schwache Wahrnehmungsfähigkeit von LVLMs die nachfolgende Leistung in Denk- und Kreativitätsaufgaben beeinträchtigen kann. Wenn Modelle beispielsweise Schwierigkeiten mit OCR, der feinkörnigen oder räumlichen Wahrnehmung haben, wirkt sich dies negativ auf Aufgaben wie das Verstehen visueller Szenen, das Meme-Verständnis oder die Diagrammerstellung aus. Durch die Bereitstellung perfekter Wahrnehmungsinformationen (z. B. durch menschlich annotierte Antworten) konnte eine signifikante Verbesserung der Denk- und Kreativitätsfähigkeiten festgestellt werden. Dies unterstreicht die Notwendigkeit, die visuellen Wahrnehmungsfähigkeiten von LVLMs weiter zu verbessern, um ihr volles Potenzial im logischen Denken und in der Kreativität freizusetzen.

    Einfluss des logischen Denkens auf kreative Fähigkeiten

    Ähnlich verhält es sich mit der Beziehung zwischen logischem Denken und Kreativität. Unter idealen Bedingungen für Wahrnehmung und logisches Denken zeigen sich Verbesserungen in den kreativen Fähigkeiten der Modelle. Dies deutet darauf hin, dass Ungenauigkeiten im logischen Denken die Leistung von LVLMs bei kreativen Aufgaben negativ beeinflussen können. Aufgaben, die spezifisches Fachwissen, emotionale Intelligenz, Vorstellungskraft oder räumliches Vorstellungsvermögen erfordern, sind hier besonders betroffen.

    Leistung über verschiedene reale Aufgaben hinweg

    LVLMs zeigen in feinkörnigen Aufgaben wie der Filmerkennung, Positionsbeschreibung oder Make-up-Beschreibung oft eine schwache Leistung. Dies könnte auf einen Mangel an realen Anwendungsdaten für das Vortraining und Finetuning zurückzuführen sein. Die Leistung verbessert sich tendenziell mit der Qualität der Trainingsdatensätze. Interessanterweise zeigen Open-Source-LVLMs mit besserer Leistung eine ähnliche Aufgabenverteilung wie Closed-Source-Modelle, was auf eine synchrone Entwicklung der aktuellen LVLMs hindeutet.

    Herausforderungen in mehrstufigen Konversationen

    ConvBench offenbart erhebliche Herausforderungen in der Fähigkeit von LVLMs, kohärente und fortlaufende mehrstufige visuelle Konversationen zu führen. Closed-Source-Modelle wie GPT-4V, Claude und Reka übertreffen Open-Source-Modelle in dieser Hinsicht tendenziell. Eine weitere Beobachtung ist, dass die Leistung der LVLMs zwischen der ersten und den nachfolgenden Gesprächsrunden abnimmt. Dies deutet darauf hin, dass Modelle im Verlauf eines Dialogs dazu neigen, Verständnisverzerrungen zu entwickeln oder Informationen aus früheren Runden zu vergessen. Eine qualitativ hochwertige Dialoghistorie kann hierbei als wichtige Orientierungshilfe dienen und das In-Context-Lernen verbessern.

    Der Effekt der Sprachmodellgrösse

    Es wurde festgestellt, dass eine Zunahme der Grösse des Sprachmodells mit einer verbesserten Leistung der LVLMs in mehrstufigen Konversationen korreliert. Dies unterstreicht die Bedeutung von Skaleneffekten in der Entwicklung von KI-Modellen.

    Automatisierte Bewertung und ihre Zuverlässigkeit

    Um eine effiziente und zuverlässige Bewertung zu gewährleisten, wurden automatisierte Bewertungs-Pipelines wie ConvBenchEval entwickelt. Diese nutzen grosse Sprachmodelle wie ChatGPT als Juroren und erreichen eine hohe Übereinstimmung mit menschlichen Bewertungen (über 81 %). Dies ist besonders wichtig, da menschliche Bewertungen teuer und zeitaufwendig sind. Durch die Verwendung von detaillierten, instruktionsbezogenen Bildbeschreibungen und Referenzantworten kann die Genauigkeit der automatisierten Bewertung erheblich verbessert werden.

    Ausblick und Limitationen

    Die vorgestellten Benchmarks leisten einen wichtigen Beitrag zur systematischen Bewertung von LVLMs. Sie decken jedoch nicht alle denkbaren Vision-Language-Aufgaben ab. Zukünftige Arbeiten könnten die Datenbasis erweitern, weitere Modalitäten wie Audio und Video einbeziehen und die Anzahl der Beispiele pro Kategorie erhöhen. Eine Limitation besteht zudem darin, dass die aktuellen GPT-basierten Metriken möglicherweise eine Präferenz für die von GPT-basierten Modellen generierten Ausgaben aufweisen könnten, was eine kontinuierliche Verfeinerung und Kalibrierung der Metriken erfordert.

    Insgesamt zeigen diese Forschungsarbeiten, dass die Entwicklung von LVLMs, die komplexe, mehrstufige visuelle Konversationen auf menschlichem Niveau führen können, weiterhin eine bedeutende Herausforderung darstellt. Die detaillierte Fehleranalyse durch hierarchische Benchmarks ist dabei ein entscheidender Schritt, um gezielte Verbesserungen vorzunehmen und die nächste Generation von KI-Assistenten voranzutreiben.

    Bibliography

    - Liu, S., Ying, K., Zhang, H., Yang, Y., Lin, Y., Zhang, T., ... & Zhang, K. (2024). ConvBench: A Multi-Turn Conversation Evaluation Benchmark with Hierarchical Ablation Capability for Large Vision-Language Models. arXiv preprint arXiv:2403.20194. - Choi, H. J. (2025). MultiVerse: A Multi-Turn Conversation Benchmark for Evaluating Large Vision and Language Models. ICCV. - Zheng, L., Chiang, W. L., Sheng, Y., Zhuang, S., Wu, Z., Zhuang, Y., ... & Stoica, I. (2023). Judging LLM-as-a-judge with MT-Bench and Chatbot Arena. Advances in Neural Information Processing Systems, 36, 46595-46623. - Bitton, Y., Bansal, H., Hessel, J., Shao, R., Zhu, W., Awadalla, A., ... & Schimdt, L. (2023). VisIT-Bench: A Benchmark for Vision-Language Instruction Following Inspired by Real-World Use. ArXiv, abs/2308.06595. - OpenAI. (2022). Introducing ChatGPT. - Yang, Z., Li, L., Lin, K., Wang, J., Lin, C. C., Liu, Z., & Wang, L. (2023). The dawn of lmms: Preliminary explorations with gpt-4v (ision). arXiv preprint arXiv:2309.17421, 9(1), 1.

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen