KI für Ihr Unternehmen – Jetzt Demo buchen

Multimodale KI erreicht herausragende Leistungen mit reduzierter Modellgröße

Kategorien:
No items found.
Freigegeben:
November 5, 2024

Artikel jetzt als Podcast anhören

Inhaltsverzeichnis

    Neue Multimodale KI übertrifft große Modelle trotz geringer Größe

    Ein Forschungsteam hat einen neuen multimodalen KI-Ansatz entwickelt, der trotz deutlich geringerer Größe in Benchmarks besser abschneidet als viele größere Modelle. Der Schlüssel zum Erfolg liegt in der Kombination eines riesigen, multimodalen Datensatzes mit einem innovativen, mehrstufigen Trainingsprozess.

    Der Datensatz: Infinity-MM

    Das Team erstellte zunächst Infinity-MM, einen der größten öffentlich verfügbaren multimodalen Datensätze. Infinity-MM umfasst rund 40 Millionen Bild-Text-Paare und deckt vier Hauptkategorien ab:

      10 Millionen Bildbeschreibungen 24,4 Millionen allgemeine visuelle Instruktionsdaten 6 Millionen ausgewählte, qualitativ hochwertige Instruktionsdaten 3 Millionen synthetisch generierte Daten von KI-Modellen wie GPT-4

    Die Erstellung der synthetischen Daten erfolgte durch einen mehrschichtigen Prozess. Dabei analysierte das RAM++ Modell zunächst Bilder und extrahierte wichtige Informationen. Diese dienten dann zur Generierung von Fragen und Antworten. Ein spezielles Klassifizierungssystem mit sechs Hauptkategorien gewährleistete die Qualität und Vielfalt der generierten Daten.

    Das Modell: Aquila-VL-2B

    Das auf dem Datensatz trainierte Modell, Aquila-VL-2B, basiert auf der LLaVA-OneVision Architektur. Es verwendet Qwen-2.5 als Sprachmodell und SigLIP für die Bildverarbeitung. Bemerkenswert ist die vergleichsweise geringe Größe von nur zwei Milliarden Parametern.

    Vierstufiges Training

    Der Trainingsprozess von Aquila-VL-2B erfolgte in vier Phasen:

      Phase 1: Erlernen grundlegender Bild-Text-Assoziationen. Phase 2: Bearbeitung allgemeiner visueller Aufgaben. Phase 3: Ausführung spezifischer Instruktionen. Phase 4: Integration der synthetisch generierten Daten und schrittweise Erhöhung der Bildauflösung.

    Überzeugende Leistung in Benchmarks

    In umfassenden Tests erzielte Aquila-VL-2B trotz seiner geringen Größe Spitzenwerte. Im MMStar Benchmark für multimodales Verständnis erreichte es 54,9% – die beste Leistung für ein Modell dieser Größe. Besonders beeindruckend ist die Leistung bei mathematischen Aufgaben: Im MathVista Test erreichte Aquila-VL-2B 59% und übertraf damit vergleichbare Systeme deutlich. Auch in allgemeinen Bildverständnistests wie HallusionBench (43%) und MMBench (75,2%) schnitt das Modell sehr gut ab.

    Die Forscher konnten zudem nachweisen, dass die Integration synthetisch generierter Daten die Leistung signifikant verbessert. Tests ohne diese zusätzlichen Daten führten zu einem durchschnittlichen Leistungsabfall von 2,4%.

    Open Source und zukünftige Forschung

    Sowohl der Datensatz Infinity-MM als auch das Modell Aquila-VL-2B werden der Forschungsgemeinschaft zur Verfügung gestellt. Das Modell wurde auf Nvidia A100 GPUs sowie chinesischen Chips trainiert. Die Entwicklung von Aquila-VL-2B zeigt das Potenzial von Open-Source-Modellen und synthetischen Trainingsdaten im Bereich der multimodalen KI. Zukünftige Forschung wird sich auf die Verbesserung der Bildverarbeitung und die Erweiterung der Möglichkeiten von Vision Language Models (VLMs) konzentrieren.

    Bibliographie: Huang, L., Zhang, Z., Zhang, Y., Zhou, X., & Wang, S. (2024). RU-AI: A Large Multimodal Dataset for Machine Generated Content Detection. arXiv preprint arXiv:2406.04906. Heikkilä, M. (2024, September 25). A tiny new open-source AI model performs as well as powerful big ones. MIT Technology Review. Wu, S., Fei, H., Qu, L., Ji, W., & Chua, T.-S. (2024). NExT-GPT: Any-to-Any Multimodal LLM. ICML. Pichai, S., & Hassabis, D. (2023, December 6). Introducing Gemini: our largest and most capable AI model. The Keyword. Huyen, C. (2023, October 10). Multimodality and Large Multimodal Models (LMMs). Chip Huyen. Luo, H., Kim, Y., Glass, J., & Ge, J. (2023). MIT researchers make language models scalable self-learners. MIT News. Martens, S. (2024, May 7). When AI Makes AI: Synthetic Data, Model Distillation, And Model Collapse. Jina AI. microsoft/unilm. (n.d.). GitHub.
    Mindverse vs ChatGPT Plus Widget

    Warum Mindverse Studio?

    Entdecken Sie die Vorteile gegenüber ChatGPT Plus

    Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.

    🚀 Mindverse Studio

    Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.

    ChatGPT Plus

    ❌ Kein strukturierter Dokumentenvergleich

    ❌ Keine Bearbeitung im Dokumentkontext

    ❌ Keine Integration von Unternehmenswissen

    VS

    Mindverse Studio

    ✅ Gezielter Dokumentenvergleich mit Custom-Prompts

    ✅ Kontextbewusste Textbearbeitung im Editor

    ✅ Wissensbasierte Analyse & Zusammenfassungen

    📚 Nutzen Sie Ihr internes Wissen – intelligent und sicher

    Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.

    ChatGPT Plus

    ❌ Nur ein Modellanbieter (OpenAI)

    ❌ Keine Modellauswahl pro Use Case

    ❌ Keine zentrale Modellsteuerung für Teams

    VS

    Mindverse Studio

    ✅ Zugriff auf über 50 verschiedene KI-Modelle

    ✅ Modellauswahl pro Prompt oder Assistent

    ✅ Zentrale Steuerung auf Organisationsebene

    🧠 Zugang zu allen führenden KI-Modellen – flexibel & anpassbar

    OpenAI GPT-4: für kreative Texte und allgemeine Anwendungen
    Anthropic Claude: stark in Analyse, Struktur und komplexem Reasoning
    Google Gemini: ideal für multimodale Aufgaben (Text, Bild, Code)
    Eigene Engines: individuell trainiert auf Ihre Daten und Prozesse

    ChatGPT Plus

    ❌ Keine echte Teamkollaboration

    ❌ Keine Rechte- oder Rollenverteilung

    ❌ Keine zentrale Steuerung oder Nachvollziehbarkeit

    VS

    Mindverse Studio

    ✅ Teamübergreifende Bearbeitung in Echtzeit

    ✅ Granulare Rechte- und Freigabeverwaltung

    ✅ Zentrale Steuerung & Transparenz auf Organisationsebene

    👥 Kollaborative KI für Ihr gesamtes Unternehmen

    Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.

    Bereit für den nächsten Schritt?

    Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.

    🎯 Kostenlose Demo buchen

    Wie können wir Ihnen heute helfen?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen