KI für Ihr Unternehmen – Jetzt Demo buchen

Fortschritte in der Entwicklung offener multimodaler Sprachmodelle durch das Projekt Bee

Kategorien:
No items found.
Freigegeben:
October 20, 2025

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Die Entwicklung von „Bee“ zielt darauf ab, die Leistung vollständig quelloffener multimodaler großer Sprachmodelle (MLLMs) durch hochwertige Daten und eine umfassende Tool-Suite zu verbessern.
    • „Honey-Data-15M“ ist ein neuartiger Datensatz mit 15 Millionen Frage-Antwort-Paaren, der durch fortschrittliche Reinigungs- und Anreicherungstechniken, einschließlich einer dualen Chain-of-Thought (CoT)-Strategie, erstellt wurde.
    • Die „HoneyPipe“-Datenkuratierungspipeline, basierend auf dem „DataStudio“-Framework, bietet eine transparente und anpassbare Methode zur Datenselektion und -aufbereitung.
    • Das trainierte Modell „Bee-8B“ erreicht eine neue Spitzenleistung für vollständig quelloffene MLLMs und konkurriert in einigen Fällen mit semi-offenen Modellen.
    • Das Projekt stellt der Forschungsgemeinschaft umfassende Ressourcen zur Verfügung, darunter den Datensatz, die Tool-Suite, Trainingsrezepte und Modellgewichte, um die Entwicklung offener MLLMs voranzutreiben.

    Revolution in der multimodalen KI: „Bee“ setzt neue Standards für offene MLLMs

    In der Landschaft der künstlichen Intelligenz stellen multimodale große Sprachmodelle (MLLMs) einen entscheidenden Fortschritt dar, da sie die Verarbeitung und das Verständnis verschiedener Datenmodalitäten wie Text und Bilder ermöglichen. Während proprietäre MLLMs beeindruckende Fähigkeiten demonstrieren, hinken vollständig quelloffene Alternativen oft hinterher. Ein zentraler Grund hierfür ist die Qualität der Daten, die für das überwachte Fine-Tuning (SFT) verwendet werden. Bestehende Open-Source-Datensätze weisen häufig Rauschen auf und es mangelt an Daten für komplexes logisches Denken, wie es bei der Chain-of-Thought (CoT)-Methodik erforderlich ist. Dies hemmt die Entwicklung fortgeschrittener Modellfähigkeiten. Vor diesem Hintergrund wurde das Projekt „Bee“ ins Leben gerufen, um diese Herausforderungen gezielt anzugehen und eine neue Ära für vollständig offene MLLMs einzuleiten.

    Honey-Data-15M: Die Basis für fortschrittliches multimodales Lernen

    Ein Kernstück der „Bee“-Initiative ist die Einführung von Honey-Data-15M, einem neuen SFT-Datensatz, der etwa 15 Millionen Frage-Antwort-Paare umfasst. Dieser Datensatz ist das Ergebnis einer sorgfältigen Aufbereitung, die mehrere Reinigungstechniken und eine innovative duale CoT-Anreicherungsstrategie integriert. Die duale CoT-Strategie unterscheidet zwischen kurzen und langen Denkketten, um unterschiedliche Komplexitätsgrade des logischen Denkens abzudecken. Dies ermöglicht es dem Modell, sowohl prägnante Erklärungen als auch detaillierte, schrittweise Argumentationen zu erlernen. Die Qualität der Daten in Honey-Data-15M ist entscheidend, um das Potenzial von MLLMs voll auszuschöpfen und die Lücke zu proprietären Modellen zu schließen.

    Die Bedeutung von Datenqualität im Detail

    Die Forschung hinter „Bee“ unterstreicht, dass nicht die schiere Menge an Daten, sondern deren Qualität und spektrale Vielfalt der Schlüssel zur Entwicklung leistungsstarker MLLMs ist. Die Herausforderungen bei der Datenkuratierung für MLLMs sind vielfältig:

    • Rauschen in Daten: Viele öffentlich verfügbare Datensätze enthalten inkonsistente, fehlerhafte oder irrelevante Informationen, die das Training von Modellen beeinträchtigen können.
    • Mangel an komplexen Denkprozessen: Für fortgeschrittene Anwendungen ist es unerlässlich, dass Modelle komplexe Schlussfolgerungen ziehen können. Hierfür sind Daten mit expliziten Denkketten (Chain-of-Thought) erforderlich, die in vielen Datensätzen unterrepräsentiert sind.
    • Heterogenität der Datenquellen: Multimodale Modelle müssen in der Lage sein, Informationen aus verschiedenen Modalitäten zu integrieren. Dies erfordert eine sorgfältige Abstimmung und Anreicherung der Daten, um eine kohärente Wissensrepräsentation zu gewährleisten.

    Honey-Data-15M begegnet diesen Problemen durch einen mehrstufigen Ansatz, der darauf abzielt, ein Höchstmaß an Datenintegrität und -relevanz zu gewährleisten.

    HoneyPipe und DataStudio: Transparente Datenkuratierung in der Praxis

    Um die Erstellung und Pflege solch hochwertiger Datensätze zu ermöglichen, wurde HoneyPipe eingeführt, eine Datenkuratierungspipeline, die auf dem zugrunde liegenden Framework DataStudio basiert. Diese Suite bietet der Gemeinschaft eine transparente und anpassbare Methodik zur Datenkuratierung, die über statische Datensatzveröffentlichungen hinausgeht. Sie ermöglicht eine systematische, reproduzierbare und adaptive Sammlung und Filterung von Daten im großen Maßstab.

    Funktionsweise der Kuratierungspipeline

    Die HoneyPipe-Pipeline ist modular aufgebaut und umfasst folgende Schritte:

    • Anfängliche Aggregation: Rohdaten aus verschiedenen Quellen werden zusammengeführt.
    • Progressive Filterung: Regelbasierte und modellbasierte Operatoren werden kaskadierend angewendet, um Rauschen zu entfernen und die semantische Genauigkeit sicherzustellen.
    • Stufenweise CoT-Anreicherung: Zunächst wird versucht, kurze CoT-Erklärungen zu generieren. Wenn dies nicht ausreicht, generiert ein leistungsfähigeres Modell eine lange CoT, wobei jede CoT auf Konsistenz mit der ursprünglichen Antwort überprüft wird.
    • Dynamische Annotationstiefe: Basierend auf der Komplexität der zugrunde liegenden Aufgabe werden Samples durch verschiedene Anreicherungsphasen geleitet.

    Die vollständige Offenlegung des Quellcodes und der Rezepte ermöglicht es der Forschungsgemeinschaft, die Pipeline zu reproduzieren und kontinuierlich zu verfeinern, was die Nachhaltigkeit und Weiterentwicklung des Projekts sichert.

    Bee-8B: Ein quelloffenes MLLM an der Spitze der Leistung

    Zur Validierung des Datensatzes und der Pipeline wurde Bee-8B trainiert, ein 8-Milliarden-Parameter-Modell, das auf Honey-Data-15M basiert. Experimente zeigen, dass Bee-8B einen neuen Stand der Technik (SOTA) für vollständig quelloffene MLLMs etabliert. Das Modell erreicht eine Leistung, die mit aktuellen semi-offenen Modellen wie InternVL3.5-8B konkurrenzfähig ist und diese in einigen Fällen sogar übertrifft.

    Das mehrstufige Trainingsregime von Bee-8B

    Bee-8B wurde mit einem fünfstufigen Trainingsregime entwickelt, das darauf abzielt, die multimodale Ausrichtung und die Denkfähigkeit zu maximieren:

    1. MLP Warmup: Der MLP-Projektor, der die Ausgaben des Vision-Encoders auf Spracheinbettungen abbildet, wird mit einem Teil der Vision-Sprach-Datensätze trainiert.
    2. Vision-Language Alignment: Ein gemeinsames, unfreeze-Training des gesamten Stacks auf 12,6 Millionen multimodalen Paaren und umfangreichen rein textbasierten Denkdaten (einschließlich Nemotron-Samples) stellt die Kreuzmodalitätsausrichtung her.
    3. Multimodales SFT: Fine-Tuning auf dem vollständigen Honey-Data-15M mit kurzen und langen CoT, um robuste Anweisungsbefolgung und detaillierte Schritt-für-Schritt-Argumentation zu vermitteln.
    4. Effizientes Refinement SFT: Ein kuratierter 1-Millionen-Sample-Subset, quotenbasiert für eine ausgewogene Themenverteilung und Dialoglänge, wird zur weiteren Verfeinerung verwendet.
    5. Reinforcement Learning (GRPO): Die endgültige Policy-Optimierung wendet eine gewichtete Belohnung an, die Formatierungsanforderungen (z.B. die Aufnahme von Antworten in Boxen) und die Überprüfung der faktischen Genauigkeit anhand einer Ground-Truth-Antwort durchsetzt.

    Diese gestufte Methodik optimiert systematisch sowohl die Generalisierungsfähigkeit als auch die aufgabenspezifische Leistung, wobei jede Stufe inkrementelle Verbesserungen liefert, die in detaillierten Ablationsstudien dokumentiert sind.

    Benchmark-Evaluierung und vergleichbare Leistung

    Bee-8B wurde mit VLMEvalKit über mehrere Domänen hinweg evaluiert:

    • Allgemeine VQA: Bee-8B erreicht oder übertrifft semi-offene Modelle (z.B. InternVL3.5-8B) in der Top-1-Genauigkeit und bei Denkaufgaben.
    • Dokumenten-OCR/Strukturierte Datensätze: Das Modell zeigt eine starke Eignung beim Lesen und Schlussfolgern über strukturierte Informationen.
    • Mathematik und STEM-Argumentation: Die überlegene CoT-Argumentation ist eine direkte Folge der Datenanreicherung und des Fine-Tunings.

    Bee-8B unterstützt zwei Inferenzmodalitäten: "Non-Thinking" (deterministische, prägnante Ausgabe) und "Thinking" (höhere Temperatur, längere Ausgabe für detaillierte Argumentation). Die Fortschritte von rohen zu angereicherten Daten und durch alle fünf Trainingsstufen werden in Radarplots und Ablationstabellen visualisiert, die konsistente Verbesserungen in Genauigkeit, Denkfähigkeit und Robustheit zeigen.

    Beiträge, Auswirkungen und Open-Science-Infrastruktur

    Das „Bee“-Projekt liefert mehrere grundlegende Beiträge:

    • State-of-the-Art Fully Open MLLM: Es setzt neue SOTA-Ergebnisse für vollständig quelloffene Modelle auf mehreren öffentlichen Benchmarks.
    • Offener Korpus und Pipeline: Honey-Data-15M und die Full-Stack-Kuratierungsmethodik (HoneyPipe/DataStudio) werden veröffentlicht – einschließlich Code, Rezepten und Dokumentation.
    • Modellgewichte und Evaluierungs-Harness: Forschern werden vortrainierte Gewichte und ein anpassbares Evaluierungs-Toolkit (VLMEvalKit-Anpassungen) für transparentes Benchmarking zur Verfügung gestellt.
    • Datenzentriertes Paradigmenwechsel: Die Ergebnisse zeigen, dass Qualität, tief gefilterte und CoT-angereicherte Daten – nicht nur das Rohvolumen – ein kritischer Treiber sind, um die Lücke zwischen Open-Source- und proprietären Modellen zu schließen.

    Diese Infrastruktur positioniert „Bee-8B“ als reproduzierbare Grundlage für weitere Forschung, Experimente und Anpassungen in multimodalen Aufgaben und leistet einen wichtigen Beitrag zur Förderung der Open-Source-KI-Gemeinschaft.

    Zukünftige Richtungen und Forschungsmöglichkeiten

    Die Veröffentlichung von „Bee-8B“ eröffnet neue Wege für die Forschung an offenen MLLMs:

    • Erweiterung der Datenanreicherung: Eine weitere Verfeinerung und Skalierung der dualen CoT-Techniken kann weiterhin zu Leistungssteigerungen führen, insbesondere bei komplexen zusammengesetzten Denkaufgaben.
    • Anpassung und Skalierung: Die transparente Pipeline ist leicht auf neue Domänen, Modalitäten und Sprachen erweiterbar.
    • Offenes Evaluierungsökosystem: Die Zusammenarbeit der Gemeinschaft bei Benchmarking und Datenkuratierung wird zunehmend robuste und rechenschaftspflichtige Open-Source-Alternativen zu proprietären MLLMs fördern.

    „Bee-8B“ und die unterstützende Open-Science-Infrastruktur sind bereit, weitere Fortschritte bei hochwertigen, vollständig quelloffenen multimodalen KI-Systemen für akademische und industrielle Anwendungen voranzutreiben.

    Bibliography

    - Zhang, Y., Ni, B., Chen, X.-S., Zhang, H.-R., Rao, Y., Peng, H., Lu, Q., Hu, H., Guo, M.-H., & Hu, S.-M. (2025). Bee: A High-Quality Corpus and Full-Stack Suite to Unlock Advanced Fully Open MLLMs. arXiv preprint arXiv:2510.13795. - Emergent Mind. (2025, October 16). Bee-8B: Open 8B Multimodal LLM. - Hugging Face. (2025, October 16). Bee-8B - a Open-Bee Collection.

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen