Das Wichtigste in Kürze
- Die Evaluierung von Großen Multimodalen Modellen (LMMs) geht über reine Task-Performance hinaus und konzentriert sich auf Aspekte wie Halluzinationen, Antwortverweigerung, Kompositionalität, Erklärbarkeit und Befolgung von Anweisungen.
- Das EvALign-ICL Framework ist ein wichtiger Ansatz zur umfassenden Bewertung von LMMs und zur Minderung ihrer Schwächen durch In-Context Learning (ICL).
- Trotz Fortschritten zeigen LMMs weiterhin signifikante Mängel in verschiedenen Bewertungsdimensionen, die nicht allein durch Skalierung behoben werden können.
- Neue ICL-Varianten wie Multitask-ICL, Chain-of-Hindsight-ICL und Self-Correcting-ICL bieten vielversprechende Ansätze zur post-hoc Verbesserung der Modellleistung.
- Offene Toolkits wie VLMEvalKit und SciEvalKit standardisieren und vereinfachen die Evaluierung von LMMs und fördern die Reproduzierbarkeit in der Forschung.
Die rapide Entwicklung im Bereich der Künstlichen Intelligenz hat Große Multimodale Modelle (LMMs) hervorgebracht, die in der Lage sind, Informationen aus verschiedenen Modalitäten wie Text und Bildern zu verarbeiten. Diese Modelle, wie beispielsweise Flamingo oder IDEFICS, stellen einen bedeutenden Schritt in Richtung allgemeiner KI-Agenten dar. Doch trotz ihrer beeindruckenden Fähigkeiten offenbaren Interaktionen mit diesen LMMs erhebliche Limitationen, die von traditionellen Bewertungsbenchmarks oft nicht ausreichend erfasst werden. Eine reine Messung der Task-Performance, etwa die Genauigkeit bei visuellen Frage-Antwort-Aufgaben (VQA), liefert oft keine tiefgehenden Einblicke in die tatsächlichen Fähigkeiten und Schwächen der Modelle oder inwieweit sie menschlichen Erwartungen entsprechen.
EvALign-ICL: Ein umfassender Bewertungsansatz für LMMs
Um ein präziseres Verständnis dieser Mängel zu gewinnen, wurde das EvALign-ICL Framework entwickelt. Dieser Ansatz weicht vom herkömmlichen Bewertungsparadigma ab und konzentriert sich auf eine multidimensionale Analyse von LMMs. Im Rahmen dieser Forschung wurden zehn aktuelle Open-Source LMMs mit Parameterzahlen von 3 Milliarden bis zu 80 Milliarden evaluiert. Die Bewertung erfolgte entlang fünf zentraler Achsen:
- Objekthalluzinationen: Die Tendenz von Modellen, Objekte in generierten Beschreibungen zu erwähnen, die im Eingabebild nicht vorhanden sind.
- Antwortverweigerung: Die Fähigkeit des Modells zu erkennen, wann es keine korrekte Antwort geben kann und stattdessen eine Verweigerung signalisiert.
- Kompositionalität: Das Verständnis, wie die Bedeutung einer Aussage durch ihre Bestandteile und deren Zusammensetzung bestimmt wird.
- Erklärbarkeit: Die Fähigkeit des Modells, verständliche Erklärungen für seine Ausgaben zu liefern.
- Befolgung von Anweisungen: Die Präzision, mit der das Modell komplexe Benutzeranweisungen befolgt.
Die Ergebnisse dieser Evaluierung decken signifikante Mängel in LMMs auf, die über die reine Task-Performance hinausgehen.
Die Rolle des In-Context Learning (ICL)
Während herkömmliche Lösungen zur Verbesserung von LMMs oft auf umfassendes Training, wie Instruction Tuning oder Reinforcement Learning from Human Feedback (RLHF), setzen, untersucht EvALign-ICL das trainingsfreie In-Context Learning (ICL) als alternative Lösungsstrategie. Die Studie analysiert, wie ICL diese Limitationen beeinflusst. Basierend auf dieser Untersuchung wurden zudem neue multimodale ICL-Varianten vorgeschlagen, darunter:
- Multitask-ICL: Nutzt die Synergien zwischen verschiedenen Aufgaben, indem es das Modell anleitet, mehrere Aufgaben im Kontext zu lösen.
- Chain-of-Hindsight-ICL: Verbessert die Erklärbarkeit, indem es sowohl gute als auch schlechte Antwortbeispiele als In-Context-Demonstrationen verwendet.
- Self-Correcting-ICL: Ermöglicht es dem Modell, seine eigenen Antworten zu korrigieren, insbesondere bei der Entscheidung, ob eine Frage beantwortbar ist oder nicht.
Wesentliche Erkenntnisse der Evaluierung
Die Forschungsergebnisse liefern detaillierte Einblicke in das Verhalten und die Schwächen von LMMs:
- Halluzinationen: LMMs neigen stark zu Halluzinationen. Eine geringe Anzahl von ICL-Beispielen kann diese teilweise mindern, während eine Erhöhung der Beispiele, insbesondere bei kleineren Modellen, das Problem verschärfen kann. Hochwertigere Trainingsdaten und die Freigabe von LLM-Gewichten können Halluzinationen reduzieren.
- Antwortverweigerung: LMMs geben eher falsche Antworten, als sich zu enthalten. ICL kann ihnen helfen, sich bei unklaren Fragen eher zu enthalten. Größere Modelle, bessere Datenqualität und unfreeze-LLM-Gewichtungen verbessern die Verweigerungsfähigkeit.
- Kompositionalität: LMMs zeigen Defizite in der Kompositionalität und haben Schwierigkeiten, diese selbst mit ICL zu erlernen.
- Erklärbarkeit: LMMs liefern oft keine guten Erklärungen, aber ICL kann die Leistung in diesem Bereich verbessern. Größere Modelle tendieren dazu, bessere Erklärungen zu generieren.
- Befolgung von Anweisungen: LMMs folgen Benutzeranweisungen oft nicht präzise. Eine geringe Anzahl von ICL-Demonstrationen kann die Hilfsbereitschaft leicht erhöhen, insbesondere bei Modellen ohne spezifisches Instruction Tuning.
Open-Source Toolkits für die LMM-Evaluierung
Die Komplexität der Evaluierung von LMMs hat zur Entwicklung verschiedener Open-Source Toolkits geführt, die darauf abzielen, diesen Prozess zu standardisieren und zu vereinfachen:
- VLMEvalKit: Dieses PyTorch-basierte Toolkit konzentriert sich auf die Evaluierung großer Multimodalitätsmodelle, insbesondere Vision-Language-Modelle. Es bietet ein umfassendes Framework für reproduzierbare Ergebnisse und ein Leaderboard zur Verfolgung des Forschungsfortschritts. Es unterstützt über 70 verschiedene LMMs und mehr als 20 multimodale Benchmarks und ermöglicht eine einfache Integration neuer Modelle.
- SciEvalKit: Ein weiteres Open-Source-Toolkit, das speziell für die Bewertung von KI-Modellen in wissenschaftlichen Disziplinen entwickelt wurde. Es deckt ein breites Spektrum wissenschaftlicher Intelligenz ab, einschließlich multimodaler Wahrnehmung, Argumentation, Verständnis, symbolischer Argumentation, Codegenerierung und Wissensverständnis in sechs großen Wissenschaftsbereichen.
Diese Toolkits tragen maßgeblich dazu bei, die Transparenz und Reproduzierbarkeit in der LMM-Forschung zu fördern und eine gemeinsame Basis für den Vergleich und die Weiterentwicklung von Modellen zu schaffen.
Ausblick und Implikationen für B2B-Anwendungen
Die detaillierte Analyse der Stärken und Schwächen von LMMs durch Frameworks wie EvALign-ICL und die Unterstützung durch Evaluierungs-Toolkits sind für B2B-Anwendungen von großer Bedeutung. Unternehmen, die LMMs in kritischen Bereichen wie der autonomen Fahrtechnik oder der medizinischen Bildgebung einsetzen möchten, benötigen ein tiefes Verständnis der Modellzuverlässigkeit, der potenziellen Halluzinationen und der Fähigkeit zur präzisen Befolgung von Anweisungen. Die Entwicklung von ICL-Varianten, die gezielt Schwächen adressieren, bietet vielversprechende Wege, um die Robustheit und Vertrauenswürdigkeit von LMMs für den Unternehmenseinsatz zu erhöhen. Die konsequente Weiterentwicklung und Standardisierung von Evaluierungsmethoden wird entscheidend sein, um das volle Potenzial multimodaler KI sicher und effektiv in die Geschäftswelt zu integrieren.
Bibliographie
- Duan, H., Yang, J., Qiao, Y., Fang, X., Chen, L., Liu, Y., Dong, X., Zang, Y., Zhang, P., Wang, J., Lin, D., & Chen, K. (2024). VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models. arXiv preprint arXiv:2407.11691.
- Shukor, M., Rame, A., Dancette, C., & Cord, M. (2023). Beyond Task Performance: Evaluating and Reducing the Flaws of Large Multimodal Models with In-Context Learning (EvALign-ICL). ICLR 2024. Project Website: https://evalign-icl.github.io/
- Wang, Y., Chen, Y., Li, S., Zhou, Y., Liu, B., Gao, H., Yuan, J., Bu, J., Xu, W., Zhou, Y., Zhao, X., Zhou, Z., Wang, F., Duan, H., Zhang, S., Yao, J., Deng, H., Wang, Y., Xiao, J., Liu, J., Su, E., Liu, Y., Wang, W., Yao, J., Zheng, S., Sun, H., Ma, R., Yan, X., Zhang, B., Zhou, D., Zhang, S., Ye, P., Wang, X., Tang, S., Zhang, W., & Bai, L. (2025). SciEvalKit: An Open-source Evaluation Toolkit for Scientific General Intelligence. arXiv preprint arXiv:2512.22334.