Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Entwicklung von Künstlicher Intelligenz (KI) schreitet rasant voran. Insbesondere Large Vision-Language Models (LVLMs), die sowohl visuelle als auch sprachliche Informationen verarbeiten können, eröffnen neue Möglichkeiten für interaktive KI-Assistenten. Diese Modelle sind in der Lage, nicht nur einzelne Fragen zu Bildern zu beantworten, sondern auch komplexe, mehrstufige Dialoge zu führen. Um die Fortschritte und Limitationen dieser Modelle umfassend zu bewerten, wurden neue Benchmarks entwickelt. Dieser Artikel beleuchtet die Herausforderungen und Erkenntnisse aus aktuellen Forschungsarbeiten in diesem Bereich.
Bestehende Benchmarks für LVLMs konzentrieren sich oft auf einzelne Interaktionen (Single-Turn-Konversationen) oder geschlossene Multiple-Choice-Fragen. Diese Ansätze sind jedoch unzureichend, um die komplexen Fähigkeiten von KI-Assistenten in realen Anwendungsszenarien zu beurteilen, die oft offene und mehrstufige Dialoge erfordern. Hier setzen neuere Benchmarks an, die darauf abzielen, eine tiefere und umfassendere Bewertung zu ermöglichen.
Ein Beispiel für einen solchen neuen Bewertungsstandard ist ConvBench, ein Benchmark, der speziell für die Evaluierung von LVLMs in mehrstufigen visuellen Konversationen entwickelt wurde. ConvBench umfasst 577 sorgfältig kuratierte mehrstufige Dialoge mit insgesamt 215 Aufgaben. Diese Aufgaben sind breit gefächert, offen und ähneln realen Benutzerinteraktionen. Jede Konversation in ConvBench ist hierarchisch strukturiert und prüft nacheinander drei kognitive Fähigkeiten:
Diese hierarchische Struktur ermöglicht es, die Fähigkeiten des Modells in jeder Phase einer Konversation zu entkoppeln und eine präzisere Fehlerzuweisung vorzunehmen. So kann beispielsweise festgestellt werden, ob ein Fehler in einer Denkaufgabe auf einer unzureichenden Wahrnehmung oder einem fehlerhaften Denkprozess beruht.
MultiVerse erweitert den Ansatz, indem es 647 Dialoge mit durchschnittlich vier Gesprächsrunden aus einer breiten Palette von 12 populären VLM-Evaluierungs-Benchmarks ableitet. Es umfasst 484 Aufgaben und 484 Interaktionsziele, die ein weites Spektrum an Themen abdecken – von Faktenwissen und Wahrnehmung bis hin zu fortgeschrittenen Denkaufgaben wie Mathematik und Programmierung. MultiVerse nutzt eine Checklisten-basierte Bewertungsmethode, die GPT-4o als automatisierten Evaluator einsetzt und die Leistung anhand von 37 Schlüsselkriterien misst, darunter Wahrnehmungsgenauigkeit, sprachliche Klarheit und faktische Korrektheit.
Die experimentellen Ergebnisse beider Benchmarks liefern wichtige Einblicke in den aktuellen Stand der LVLMs:
Die Benchmarks stellen für moderne LVLMs eine erhebliche Herausforderung dar. Selbst führende Modelle wie GPT-4V erreichen in ConvBench lediglich eine Gesamtpunktzahl von 39,51 %. Dies offenbart eine deutliche Lücke zwischen der Leistung dieser Modelle und menschlichen Fähigkeiten in komplexen, mehrstufigen visuellen Konversationen. Bei MultiVerse erreichen selbst die stärksten Modelle nur eine Erfolgsquote von 50 % in komplexen mehrstufigen Konversationen.
Eine zentrale Erkenntnis ist, dass eine schwache Wahrnehmungsfähigkeit von LVLMs die nachfolgende Leistung in Denk- und Kreativitätsaufgaben beeinträchtigen kann. Wenn Modelle beispielsweise Schwierigkeiten mit OCR, der feinkörnigen oder räumlichen Wahrnehmung haben, wirkt sich dies negativ auf Aufgaben wie das Verstehen visueller Szenen, das Meme-Verständnis oder die Diagrammerstellung aus. Durch die Bereitstellung perfekter Wahrnehmungsinformationen (z. B. durch menschlich annotierte Antworten) konnte eine signifikante Verbesserung der Denk- und Kreativitätsfähigkeiten festgestellt werden. Dies unterstreicht die Notwendigkeit, die visuellen Wahrnehmungsfähigkeiten von LVLMs weiter zu verbessern, um ihr volles Potenzial im logischen Denken und in der Kreativität freizusetzen.
Ähnlich verhält es sich mit der Beziehung zwischen logischem Denken und Kreativität. Unter idealen Bedingungen für Wahrnehmung und logisches Denken zeigen sich Verbesserungen in den kreativen Fähigkeiten der Modelle. Dies deutet darauf hin, dass Ungenauigkeiten im logischen Denken die Leistung von LVLMs bei kreativen Aufgaben negativ beeinflussen können. Aufgaben, die spezifisches Fachwissen, emotionale Intelligenz, Vorstellungskraft oder räumliches Vorstellungsvermögen erfordern, sind hier besonders betroffen.
LVLMs zeigen in feinkörnigen Aufgaben wie der Filmerkennung, Positionsbeschreibung oder Make-up-Beschreibung oft eine schwache Leistung. Dies könnte auf einen Mangel an realen Anwendungsdaten für das Vortraining und Finetuning zurückzuführen sein. Die Leistung verbessert sich tendenziell mit der Qualität der Trainingsdatensätze. Interessanterweise zeigen Open-Source-LVLMs mit besserer Leistung eine ähnliche Aufgabenverteilung wie Closed-Source-Modelle, was auf eine synchrone Entwicklung der aktuellen LVLMs hindeutet.
ConvBench offenbart erhebliche Herausforderungen in der Fähigkeit von LVLMs, kohärente und fortlaufende mehrstufige visuelle Konversationen zu führen. Closed-Source-Modelle wie GPT-4V, Claude und Reka übertreffen Open-Source-Modelle in dieser Hinsicht tendenziell. Eine weitere Beobachtung ist, dass die Leistung der LVLMs zwischen der ersten und den nachfolgenden Gesprächsrunden abnimmt. Dies deutet darauf hin, dass Modelle im Verlauf eines Dialogs dazu neigen, Verständnisverzerrungen zu entwickeln oder Informationen aus früheren Runden zu vergessen. Eine qualitativ hochwertige Dialoghistorie kann hierbei als wichtige Orientierungshilfe dienen und das In-Context-Lernen verbessern.
Es wurde festgestellt, dass eine Zunahme der Grösse des Sprachmodells mit einer verbesserten Leistung der LVLMs in mehrstufigen Konversationen korreliert. Dies unterstreicht die Bedeutung von Skaleneffekten in der Entwicklung von KI-Modellen.
Um eine effiziente und zuverlässige Bewertung zu gewährleisten, wurden automatisierte Bewertungs-Pipelines wie ConvBenchEval entwickelt. Diese nutzen grosse Sprachmodelle wie ChatGPT als Juroren und erreichen eine hohe Übereinstimmung mit menschlichen Bewertungen (über 81 %). Dies ist besonders wichtig, da menschliche Bewertungen teuer und zeitaufwendig sind. Durch die Verwendung von detaillierten, instruktionsbezogenen Bildbeschreibungen und Referenzantworten kann die Genauigkeit der automatisierten Bewertung erheblich verbessert werden.
Die vorgestellten Benchmarks leisten einen wichtigen Beitrag zur systematischen Bewertung von LVLMs. Sie decken jedoch nicht alle denkbaren Vision-Language-Aufgaben ab. Zukünftige Arbeiten könnten die Datenbasis erweitern, weitere Modalitäten wie Audio und Video einbeziehen und die Anzahl der Beispiele pro Kategorie erhöhen. Eine Limitation besteht zudem darin, dass die aktuellen GPT-basierten Metriken möglicherweise eine Präferenz für die von GPT-basierten Modellen generierten Ausgaben aufweisen könnten, was eine kontinuierliche Verfeinerung und Kalibrierung der Metriken erfordert.
Insgesamt zeigen diese Forschungsarbeiten, dass die Entwicklung von LVLMs, die komplexe, mehrstufige visuelle Konversationen auf menschlichem Niveau führen können, weiterhin eine bedeutende Herausforderung darstellt. Die detaillierte Fehleranalyse durch hierarchische Benchmarks ist dabei ein entscheidender Schritt, um gezielte Verbesserungen vorzunehmen und die nächste Generation von KI-Assistenten voranzutreiben.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen