KI für Ihr Unternehmen – Jetzt Demo buchen

Fortschritte in der Entwicklung multimodaler Sprachmodelle mit InternVL3

Kategorien:
No items found.
Freigegeben:
November 12, 2025

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • InternVL3 stellt einen signifikanten Fortschritt in der Entwicklung multimodaler Sprachmodelle (MLLMs) dar.
    • Das Modell nutzt ein "natives multimodales Vortrainingsparadigma", das Sprach- und multimodale Fähigkeiten gleichzeitig erlernt.
    • Wichtige Neuerungen umfassen "Variable Visual Position Encoding (V2PE)", fortgeschrittene Nachtrainingstechniken wie "Supervised Fine-Tuning (SFT)" und "Mixed Preference Optimization (MPO)".
    • InternVL3-78B erreicht im MMMU-Benchmark einen Score von 72,2 und positioniert sich damit als führendes Open-Source MLLM.
    • Das Modell zeigt auch eine starke Leistungsfähigkeit in reinen Sprachaufgaben und ist wettbewerbsfähig mit kommerziellen Modellen wie ChatGPT-4o und Claude 3.5 Sonnet.
    • Die Entwickler verfolgen Open-Science-Prinzipien und werden Trainingsdaten sowie Modellgewichte öffentlich zugänglich machen.

    Die kontinuierliche Evolution im Bereich der Künstlichen Intelligenz (KI) führt zu immer leistungsfähigeren Modellen, die über traditionelle Grenzen hinausgehen. Ein aktueller und bemerkenswerter Fortschritt in diesem Feld ist die Einführung von InternVL3, einer neuen Generation multimodaler großer Sprachmodelle (MLLMs). Diese Entwicklung, die in einem kürzlich veröffentlichten technischen Bericht detailliert beschrieben wird, markiert einen entscheidenden Schritt in Richtung umfassenderer und effizienterer KI-Systeme, die sowohl visuelle als auch sprachliche Informationen verarbeiten können. Für Fachexperten und Unternehmen, die die neuesten KI-Innovationen nutzen möchten, bietet InternVL3 vielversprechende Perspektiven.

    Ein Paradigmenwechsel im Vortraining

    Im Zentrum von InternVL3 steht ein innovatives "natives multimodales Vortrainingsparadigma". Im Gegensatz zu früheren Ansätzen, bei denen textbasierte große Sprachmodelle (LLMs) nachträglich für die Verarbeitung visueller Eingaben angepasst wurden, erlernt InternVL3 multimodale und linguistische Fähigkeiten simultan. Dieser integrierte Ansatz erfolgt in einer einzigen Vortrainingsphase, die sowohl diverse multimodale Daten als auch reine Textkorpora umfasst.

    Vorteile des nativen Ansatzes

    Der herkömmliche Prozess, bei dem Textmodelle nachträglich multimodale Fähigkeiten erlernen, ist oft mit Komplexitäten und Herausforderungen bei der Ausrichtung der verschiedenen Modalitäten verbunden. Das native Vortrainingsparadigma von InternVL3 adressiert diese Schwierigkeiten effektiv, indem es von Anfang an eine kohärente Integration von visuellen und sprachlichen Informationen ermöglicht. Dies führt zu einer tieferen und besser abgestimmten Repräsentation beider Modalitäten im Modell.

    Technologische Innovationen

    Um die Leistung und Skalierbarkeit weiter zu verbessern, integriert InternVL3 mehrere fortschrittliche Techniken:

    • Variable Visual Position Encoding (V2PE): Diese Technik ermöglicht die Unterstützung erweiterter multimodaler Kontexte. V2PE nutzt kleinere, flexiblere Positionsinkremente für visuelle Token, was die Verarbeitung längerer multimodaler Sequenzen ohne eine übermäßige Erweiterung des Positionsfensters erleichtert.
    • Supervised Fine-Tuning (SFT): Nach dem Vortraining wird das Modell durch SFT weiter verfeinert. Dabei lernt das Modell, hochwertige Antworten zu imitieren, indem es auf sorgfältig annotierten Datensätzen trainiert wird.
    • Mixed Preference Optimization (MPO): MPO ist eine fortschrittliche Nachtrainingstechnik, die zusätzliche Supervision durch positive und negative Beispiele einführt. Dies hilft, die Verteilungsverschiebung zwischen Trainings- und Inferenzphase zu mindern und die Argumentationsfähigkeiten des Modells zu verbessern, insbesondere bei komplexen Aufgaben wie Ketten von Gedanken (Chain-of-Thought, CoT).
    • Test-Time Scaling Strategien: InternVL3 nutzt Skalierungsstrategien zur Testzeit, einschließlich der "Best-of-N"-Evaluationsmethode, bei der ein Kritisches Modell (VisualPRM-8B) verwendet wird, um die besten Antworten für Argumentations- und Mathematikaufgaben auszuwählen.

    Leistungsfähigkeit und Benchmarks

    Umfassende empirische Evaluationen belegen die überlegene Leistung von InternVL3 in einer Vielzahl multimodaler Aufgaben. Insbesondere das Modell InternVL3-78B erreicht im MMMU-Benchmark einen Score von 72,2. Dies stellt einen neuen Stand der Technik unter den Open-Source MLLMs dar.

    Vergleich mit Top-Modellen

    Die Fähigkeiten von InternVL3 sind auch im Vergleich zu führenden proprietären Modellen wie ChatGPT-4o, Claude 3.5 Sonnet und Gemini 2.5 Pro hochgradig wettbewerbsfähig. Trotz der starken multimodalen Fähigkeiten behält InternVL3 zudem eine ausgeprägte reine Sprachkompetenz bei.

    Die Leistung von InternVL3 manifestiert sich in verschiedenen Kategorien:

    • Multimodales Reasoning und Mathematik: Hier zeigt InternVL3-78B exzellente Ergebnisse, die mit kommerziellen Modellen vergleichbar sind.
    • OCR, Diagramm- und Dokumentenverständnis: Das Modell erzielt hohe Genauigkeiten bei der Erkennung und Interpretation von Text in Bildern, Diagrammen und komplexen Dokumenten.
    • Multi-Image & Real-World Comprehension: InternVL3 weist eine verbesserte Fähigkeit auf, mehrere Bilder und komplexe Szenarien aus der realen Welt zu verstehen.
    • Multimodale und Halluzinations-Evaluation: Das Modell zeigt eine hohe Robustheit gegenüber Halluzinationen, also der Generierung von inkorrekten oder nicht existierenden Informationen.
    • Visuelles Grounding: Präzise Lokalisierung und Identifizierung von Objekten in Bildern.
    • Multilinguale Fähigkeiten: InternVL3 demonstriert auch in mehrsprachigen Kontexten eine solide Leistung.
    • Video-Verständnis: Die Modelle können auch Videoinhalte analysieren und interpretieren.
    • Räumliches Reasoning: Verbesserte Fähigkeiten zur räumlichen Orientierung und zum Verständnis von Beziehungen zwischen Objekten.

    Open Science und zukünftige Entwicklungen

    Im Einklang mit den Prinzipien der Open Science haben die Entwickler angekündigt, sowohl die Trainingsdaten als auch die Modellgewichte von InternVL3 öffentlich zugänglich zu machen. Dieser Schritt soll die weitere Forschung und Entwicklung von MLLMs der nächsten Generation fördern und eine breitere Beteiligung an der Weiterentwicklung dieser Technologie ermöglichen.

    InternVL3 ist ein bemerkenswerter Schritt in der Entwicklung von KI-Modellen, die in der Lage sind, die Komplexität der menschlichen Kommunikation und Wahrnehmung besser zu handhaben. Für Unternehmen und Forscher, die an der Spitze der KI-Innovation stehen möchten, bietet InternVL3 eine leistungsstarke und flexible Plattform für eine Vielzahl von Anwendungen.

    Zusammenfassung der Modelle der InternVL3-Serie

    Die InternVL3-Serie umfasst verschiedene Modellgrößen, die auf unterschiedliche Leistungsanforderungen zugeschnitten sind. Jedes Modell besteht aus drei Hauptkomponenten: einem Vision Transformer (ViT), einer Multi-Layer Perceptron (MLP) als Konnektor und einem Large Language Model (LLM). Die kleinste Variante, InternVL3-1B, verfügt über 938,19 Millionen Parameter, während das größte Modell, InternVL3-78B, beeindruckende 78,41 Milliarden Parameter aufweist. Die ViT-Komponente ist entweder 304,01 Millionen oder 5,54 Milliarden Parameter groß, während die MLP- und LLM-Komponenten entsprechend skaliert werden. Alle Modelle unterstützen dynamische Auflösung und können während des Trainings bis zu 36 Kacheln von 448x448 Pixeln und während des Testens bis zu 128 Kacheln verarbeiten. Dies ermöglicht eine flexible Anpassung an verschiedene Bildgrößen und Detailgrade.

    Details zum Trainingsprozess

    Der Trainingsprozess von InternVL3 gliedert sich in verschiedene Phasen:

    • Natives multimodales Vortraining: In dieser Phase werden alle Parameter des Modells gemeinsam auf einem kombinierten Datensatz aus multimodalen und reinen Sprachdaten optimiert. Die multimodalen Daten umfassen eine breite Palette von Domänen wie Bildunterschriften, allgemeine Fragenbeantwortung, Mathematik, Diagramme, optische Zeichenerkennung (OCR), Wissensverankerung, Dokumentenverständnis, Multi-Turn-Dialoge, medizinische Daten, GUI-Schnittstellen, Werkzeugnutzung, 3D-Szenenverständnis und Videoverständnis. Reine Sprachdaten, basierend auf InternLM2.5 und angereichert mit zusätzlichen Open-Source-Textdatensätzen, werden hinzugefügt, um die Sprachfähigkeiten des Modells zu erhalten und zu verbessern, insbesondere in wissensintensiven, mathematischen und argumentativen Aufgaben.
    • Supervised Fine-Tuning (SFT): Für SFT werden die Trainingskorpora von InternVL2.5 erweitert, um zusätzliche Beispiele für Werkzeugnutzung, 3D-Szenenverständnis, GUI-Operationen, wissenschaftliche Diagramme, kreatives Schreiben und multimodales Reasoning zu enthalten. Die Anzahl der Trainingsbeispiele steigt dabei von 16,3 Millionen in InternVL2.5 auf 21,7 Millionen in InternVL3.
    • Mixed Preference Optimization (MPO): MPO wird mit Präferenzpaaren trainiert, die auf dem Datenpipeline und den Beispielen von MMPR v1.2 basieren. Diese Daten decken Domänen wie visuelle Fragenbeantwortung, Wissenschaft, Diagramme, Mathematik, OCR und Dokumente ab. Während der MPO-Phase werden alle Modelle auf demselben Datensatz von etwa 300.000 Beispielen trainiert.

    Fazit

    InternVL3 repräsentiert einen bedeutenden Fortschritt in der Entwicklung multimodaler Sprachmodelle durch sein innovatives natives Vortrainingsparadigma und die Integration fortschrittlicher Techniken. Die erreichte Leistungsfähigkeit, insbesondere die Spitzenposition unter den Open-Source MLLMs im MMMU-Benchmark und die Wettbewerbsfähigkeit mit proprietären Modellen, unterstreicht das Potenzial dieses Ansatzes. Die Öffnung der Trainingsdaten und Modellgewichte fördert zudem den Fortschritt der gesamten KI-Gemeinschaft und legt den Grundstein für zukünftige Innovationen in der multimodalen KI.

    Für Unternehmen bedeutet dies den Zugang zu leistungsstarken, flexiblen KI-Lösungen, die eine breite Palette von multimodalen Aufgaben bewältigen können, von der Bildanalyse bis zur komplexen Sprachverarbeitung. Die kontinuierliche Forschung und Entwicklung in diesem Bereich wird voraussichtlich zu noch ausgefeilteren und anwendungsfreundlicheren KI-Systemen führen.

    Bibliography

    - Jinguo Zhu et al., "InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models," arXiv preprint arXiv:2504.10479, 2025. - "InternVL3: Advancing Open-Source Multimodal Models with Native Multimodal Pretraining," InternVL Blog, April 11, 2025. - "InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models," Hugging Face Papers, published April 14, 2025. - Vlad Bogolin, "InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models," AI Paper of the Day, Substack, April 15, 2025. - "Introduction of InternVL3.0 Series," InternVL's tutorials, May 29, 2025. - "OpenGVLab/InternVL - GitHub," GitHub, last updated November 22, 2023. - "InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency," arXiv preprint arXiv:2508.18265, 2025.

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen