Multimodale große Sprachmodelle (MLLMs) gewinnen in der KI-Forschung und -Entwicklung zunehmend an Bedeutung. Sie kombinieren die Stärken von Sprachmodellen mit der Fähigkeit, visuelle Informationen zu verarbeiten, und eröffnen damit neue Möglichkeiten für Anwendungen in Bereichen wie Dokumentenverständnis, Bildbeschreibung und Mensch-Computer-Interaktion. Ein wichtiger Faktor für die Leistungsfähigkeit dieser Modelle ist die Verfügbarkeit großer und qualitativ hochwertiger Trainingsdatensätze. In diesem Kontext stellt InternVL 2.5 eine bedeutende Weiterentwicklung im Bereich der Open-Source MLLMs dar.
InternVL 2.5: Ein Open-Source-Modell mit kommerzieller Leistungsfähigkeit
InternVL 2.5 baut auf der Architektur von InternVL 2.0 auf und verbessert diese durch optimierte Trainings- und Teststrategien sowie eine höhere Datenqualität. Ein Fokus der Entwicklung lag auf der systematischen Untersuchung des Zusammenhangs zwischen Modellskalierung und Leistung. Dabei wurden verschiedene Aspekte wie die Größe des Vision-Encoders, des Sprachmodells und des Trainingsdatensatzes sowie Testzeitkonfigurationen analysiert.
Die Entwickler haben InternVL 2.5 anhand einer breiten Palette von Benchmarks evaluiert, die verschiedene Bereiche abdecken, darunter:
- Multidisziplinäres Schlussfolgern
- Dokumentenverständnis
- Verständnis von mehreren Bildern/Videos
- Verständnis realer Szenarien
- Erkennung multimodaler Halluzinationen
- Visuelle Lokalisierung
- Mehrsprachige Fähigkeiten
- Reine Sprachverarbeitung
Die Ergebnisse zeigen, dass InternVL 2.5 eine wettbewerbsfähige Leistung erzielt und mit führenden kommerziellen Modellen wie GPT-4o und Claude-3.5-Sonnet mithalten kann. Besonders hervorzuheben ist, dass InternVL 2.5 als erstes Open-Source-MLLM die 70%-Marke im MMMU-Benchmark überschritten hat. Durch den Einsatz von Chain-of-Thought (CoT)-Reasoning konnte eine Verbesserung um 3,7 Punkte erreicht werden, was das Potenzial von Testzeitskalierung verdeutlicht.
Modellskalierung, Datenqualität und Testzeitstrategien
Die Entwicklung von InternVL 2.5 verdeutlicht die Bedeutung verschiedener Faktoren für die Leistungsfähigkeit von MLLMs. Die Skalierung des Modells, insbesondere die Größe des Vision-Encoders und des Sprachmodells, spielt eine entscheidende Rolle. Ein größeres Modell kann komplexere Zusammenhänge erfassen und somit bessere Ergebnisse erzielen.
Neben der Modellgröße ist die Qualität der Trainingsdaten entscheidend. InternVL 2.5 profitiert von einem verbesserten Datensatz, der vielfältigere und qualitativ hochwertigere Beispiele enthält. Dies ermöglicht es dem Modell, robustere und generalisierbarere Repräsentationen zu lernen.
Darüber hinaus haben die Entwickler die Testzeitstrategien optimiert, um die Leistung des Modells weiter zu steigern. Der Einsatz von CoT-Reasoning hat sich als besonders effektiv erwiesen und ermöglicht es dem Modell, komplexere Schlussfolgerungen zu ziehen.
Beitrag zur Open-Source-Community
Mit der Veröffentlichung von InternVL 2.5 leisten die Entwickler einen wichtigen Beitrag zur Open-Source-Community. Das Modell setzt neue Standards für die Entwicklung und Anwendung multimodaler KI-Systeme und ermöglicht es Forschern und Entwicklern, mit leistungsstarken MLLMs zu experimentieren und innovative Anwendungen zu entwickeln. Die Verfügbarkeit von Open-Source-Modellen wie InternVL 2.5 fördert die Transparenz und den Wissensaustausch in der KI-Community und trägt zur Demokratisierung des Zugangs zu fortschrittlichen KI-Technologien bei. Durch die Bereitstellung eines leistungsstarken und frei verfügbaren MLLMs eröffnet InternVL 2.5 neue Möglichkeiten für die Forschung und Entwicklung im Bereich der multimodalen KI und trägt zur Weiterentwicklung des Feldes bei.
Bibliographie:
https://huggingface.co/collections/OpenGVLab/internvl-25-673e1019b66e2218f68d7c1c
https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models
https://internvl.github.io/blog/2024-07-02-InternVL-2.0/
https://github.com/OpenGVLab/InternVL
https://arxiv.org/html/2406.11271v1
https://arxiv.org/abs/2406.11271
https://openaccess.thecvf.com/content/CVPR2024/papers/Lu_Unified-IO_2_Scaling_Autoregressive_Multimodal_Models_with_Vision_Language_Audio_CVPR_2024_paper.pdf
https://openreview.net/forum?id=HdIiSPLgzC&referrer=%5Bthe%20profile%20of%20Sheng%20Shen%5D(%2Fprofile%3Fid%3D~Sheng_Shen2)
https://aclanthology.org/2024.findings-acl.738.pdf
https://colmweb.org/AcceptedPapers.html