Jetzt reinschauen – neue Umgebung live

Veröffentlichung von InternVL2: Fortschritte in multimodalen großen Sprachmodellen

Kategorien:
No items found.
Freigegeben:
December 10, 2024

Artikel jetzt als Podcast anhören

Die Veröffentlichung von InternVL2 auf Hugging Face markiert einen weiteren Schritt in der Entwicklung multimodaler großer Sprachmodelle (MLLMs). InternVL2, entwickelt von OpenGVLab, bietet eine Reihe von instruktionsgesteuerten Modellen mit einer Parametergröße von 1 Milliarde bis 108 Milliarden. Diese Modelle sind darauf trainiert, Text-, Bild- und Videoeingaben zu verarbeiten und komplexe Aufgaben zu bewältigen, die ein Verständnis verschiedener Modalitäten erfordern.

Leistungsvergleich und Beiträge

InternVL2 zeichnet sich durch seine Leistungsfähigkeit im Vergleich zu anderen Open-Source-MLLMs aus. In Benchmarks wie DocVQA, ChartQA und InfoVQA erreicht InternVL2 konkurrenzfähige Ergebnisse, die mit proprietären kommerziellen Modellen vergleichbar sind. Besonders hervorzuheben sind die Fähigkeiten in der Dokumenten- und Diagrammanalyse, der Beantwortung von Fragen zu Infografiken, dem Verständnis von Szenentext und OCR-Aufgaben. Darüber hinaus zeigt InternVL2 Stärken in der Lösung wissenschaftlicher und mathematischer Probleme sowie im kulturellen Verständnis und integrierten multimodalen Fähigkeiten.

Ein wichtiger Beitrag von InternVL2 ist die verbesserte Verarbeitung langer Texte, mehrerer Bilder und Videos. Dank eines 8k Kontextfensters und einem Training mit entsprechenden Daten kann das Modell diese Eingabetypen deutlich besser verarbeiten als sein Vorgänger InternVL 1.5. Dies eröffnet neue Möglichkeiten für Anwendungen, die umfangreiche und vielfältige Informationen benötigen.

Modellvarianten und Architektur

Die InternVL2-Serie bietet verschiedene Modellgrößen, um unterschiedliche Anforderungen an Rechenleistung und Performance zu erfüllen. Jedes Modell ist instruktionsgesteuert und für multimodale Aufgaben optimiert. InternVL2-8B, eine der verfügbaren Varianten, besteht aus InternViT-300M-448px für die Bildverarbeitung, einem MLP-Projektor und internlm2_5-7b-chat für die Textverarbeitung.

Evaluierung und Benchmarks

Die Evaluierung von InternVL2 erfolgte anhand verschiedener Benchmarks, die unterschiedliche Aspekte multimodaler Fähigkeiten abdecken. Für die Bewertung von Bildaufgaben wurden Benchmarks wie DocVQA, ChartQA, InfoVQA und TextVQA verwendet. Die Leistung bei Videoaufgaben wurde mit MVBench und Video-MME gemessen. Zusätzlich wurde die Grounding-Fähigkeit des Modells, also die Fähigkeit, Textbeschreibungen mit Bildregionen zu verknüpfen, anhand von RefCOCO-Benchmarks getestet.

Es ist wichtig zu beachten, dass die Ergebnisse je nach verwendetem Test-Toolkit leicht variieren können. Auch Code-Updates, Umgebungsvariablen und Hardware können zu geringfügigen Abweichungen führen.

Einschränkungen und zukünftige Entwicklungen

Trotz der Bemühungen um Sicherheit und ethische Konformität kann InternVL2, wie andere große Sprachmodelle auch, unerwartete Ausgaben produzieren. Dies kann beispielsweise Bias, Diskriminierung oder andere schädliche Inhalte umfassen. Die Entwickler betonen die Notwendigkeit, solche Inhalte nicht weiterzuverbreiten und übernehmen keine Verantwortung für die Folgen der Verbreitung schädlicher Informationen.

Die Veröffentlichung von InternVL2 auf Hugging Face bietet Forschern und Entwicklern die Möglichkeit, das Modell zu testen und zu evaluieren. Die Bereitstellung von Codebeispielen und Online-Demos erleichtert den Einstieg und fördert die Zusammenarbeit in der Community. Die Entwickler er encourage MLLM benchmark developers to assess the model and provide feedback.

Zugang und Nutzung

InternVL2 ist über Hugging Face zugänglich und kann mit gängigen Frameworks wie Transformers verwendet werden. Die Bereitstellung von Codebeispielen und Dokumentationen erleichtert die Integration in eigene Projekte. Nutzer können zwischen verschiedenen Quantisierungsmethoden wählen, um den Speicherbedarf an die verfügbaren Ressourcen anzupassen. Auch die Ausführung auf mehreren GPUs wird unterstützt.

Bibliographie: - https://twitter.com/IAMJBDEL/status/1864746642106388805 - https://twitter.com/IAMJBDEL/status/1865082532594942041 - https://x.com/IAMJBDEL/status/1865093935309427176/video/1
Was bedeutet das?

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
Herzlichen Dank! Deine Nachricht ist eingegangen!
Oops! Du hast wohl was vergessen, versuche es nochmal.