KI für Ihr Unternehmen – Jetzt Demo buchen

Verbesserung der Datenqualität in Multimodalen Großen Sprachmodellen durch den UniFilter Klassifikator

Kategorien:
No items found.
Freigegeben:
October 31, 2025

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Die Datenqualität ist entscheidend für die Leistungsfähigkeit Multimodaler Großer Sprachmodelle (MLLMs).
    • Ein neu entwickelter Klassifikator namens UniFilter ermöglicht die einheitliche Filterung von Bild-Text-Bildunterschriften und verschachtelten Dokumentendaten.
    • UniFilter nutzt einen semi-synthetischen Ansatz zur Datengenerierung, bei dem reale Bilder mit KI-generierten Texten unterschiedlicher Qualitätsstufen kombiniert werden.
    • Durch die Vorab-Schulung von MLLMs mit UniFilter-gefilterten Daten konnten signifikante Verbesserungen bei Aufgaben wie der visuellen Fragebeantwortung (VQA) und dem In-Context Learning erzielt werden.
    • Die Forschung zeigt, dass eine höhere Datenqualität zu robusteren und leistungsfähigeren MLLMs führt, auch nach dem Fine-Tuning.

    Die rapide Entwicklung im Bereich der Künstlichen Intelligenz, insbesondere bei Multimodalen Großen Sprachmodellen (MLLMs), wird maßgeblich durch die Verfügbarkeit und Qualität der Trainingsdaten beeinflusst. Während bisher viel Wert auf die schiere Menge der Daten gelegt wurde, rückt nun die Datenqualität in den Fokus. Eine aktuelle Forschungsarbeit stellt einen innovativen Ansatz zur Verbesserung dieser Qualität vor: den Unified Multimodal Data Quality Classifier, kurz UniFilter.

    Die Herausforderung der Datenqualität in multimodalen Modellen

    Multimodale Große Sprachmodelle werden kontinuierlich auf einer Mischung aus Bild-Text-Daten (Bildunterschriften) und verschachtelten Dokumentendaten vortrainiert. Die Filterung hochqualitativer Daten, insbesondere bei komplexen, verschachtelten Bild-Text-Dokumenten, war bisher eine untererforschte Domäne. Bestehende Methoden wie der CLIPScore-Filter sind primär auf einzelne Bild-Text-Paare ausgelegt und stoßen bei Dokumenten mit mehreren Bildern und längeren Textabschnitten an ihre Grenzen. Die Qualität der Trainingsdaten stellt jedoch einen wesentlichen Engpass dar, der die Entwicklung leistungsfähigerer Modelle behindert.

    UniFilter: Ein einheitlicher Ansatz zur Qualitätsklassifizierung

    Um dieser Herausforderung zu begegnen, wurde UniFilter entwickelt. Hierbei handelt es sich um ein effizientes MLLM, das als universeller Datenqualitätsklassifikator fungiert. Seine primäre Aufgabe ist es, sowohl hochqualitative Bild-Text-Bildunterschriften als auch verschachtelte Daten zu identifizieren und zu filtern. Durch die Nutzung einer MLLM-Architektur überwindet UniFilter die Beschränkungen früherer, CLIP-basierter Ansätze, die nur einzelne Bild-Text-Paare verarbeiten konnten. UniFilter kann sowohl gepaarte als auch verschachtelte Daten verarbeiten und einen Qualitätswert ausgeben, der die Güte der multimodalen Datenprobe anzeigt.

    Semi-synthetische Datengenerierung als Lösung

    Eine zentrale Herausforderung beim Training eines effektiven Datenqualitätsklassifikators ist die Beschaffung vielfältiger, annotierter multimodaler Daten. Menschliche Annotationen sind kostspielig und oft in ihrer Konsistenz schwer zu gewährleisten. Die Forscher schlugen daher einen neuartigen semi-synthetischen Ansatz zur Datengenerierung vor. Dieser Ansatz kombiniert:

    • Verfügbare Rohbilder: Echte Bilder aus dem Web-Crawling werden als Grundlage verwendet, um visuelle Vielfalt und Realismus zu gewährleisten.
    • KI-generierte Texte: Proprietäre MLLMs, die sich durch ihre Textgenerierungsfähigkeiten auszeichnen, erzeugen entsprechende Texte auf vier verschiedenen Qualitätsstufen.

    Diese vier Qualitätsstufen umfassen "Easy Negative", "Medium Negative", "Hard Negative" und "Positive", um das gesamte Spektrum der Datenqualität abzubilden. Dieser granulare Ansatz ermöglicht es dem Klassifikator, diskriminierende Merkmale über verschiedene Qualitätsniveaus hinweg zu lernen. Die synthetischen Daten werden als Probe-Score-Paare konstruiert, wobei die Scores 0, 1, 2 und 3 den definierten Qualitätsstufen entsprechen.

    Architektur und Effizienz von UniFilter

    Die Architektur von UniFilter basiert auf einem MLLM und integriert drei Hauptmodule: einen Vision Encoder, einen Vision-Language Projector und einen LLM-Backbone. Um sowohl Leistungsfähigkeit als auch Effizienz zu gewährleisten, wurden umfassende Ablationsstudien durchgeführt. Die optimale Konfiguration, die ein ausgewogenes Verhältnis zwischen Klassifikationsleistung und Inferenzgeschwindigkeit bietet, umfasst:

    • Einen SigLIP-SO-400M Vision Encoder.
    • Einen adaptiven Average Pooling Projector.
    • Einen Qwen-2.5-0.5B LLM-Backbone.

    Diese Konfiguration ermöglicht eine hohe Inferenzleistung von 130 Samples/s, was die Effizienz im Vergleich zu ähnlichen Methoden unterstreicht.

    Experimentelle Ergebnisse und Vorteile

    Die Wirksamkeit von UniFilter wurde in umfassenden Experimenten mit Bild-Text-Bildunterschriften und verschachtelten Dokumentendaten demonstriert. Die Ergebnisse zeigen deutliche Leistungsverbesserungen gegenüber etablierten Baselines.

    Verbesserung der MLLM-Vorab-Schulung mit Bild-Text-Bildunterschriften

    Beim Vortraining von MLLMs ausschließlich mit Bild-Text-Bildunterschriften aus dem DataComp-Medium-128M-Pool übertraf UniFilter bestehende Methoden wie Data-Filtering-Network (DFN) und MLMFilter in allen fünf getesteten Zero-Shot Visual Question Answering (VQA)-Datensätzen. Dies unterstreicht die Fähigkeit von UniFilter, hochqualitative Bildunterschriftendaten zu kuratieren, die das Verständnis und die Schlussfolgerungsfähigkeiten von MLLMs verbessern.

    Leistungssteigerung durch gemischte Daten

    Die Anwendung von UniFilter auf gemischte Daten, bestehend aus Bild-Text-Bildunterschriften und verschachtelten Dokumentendaten (aus OBELICS), zeigte ebenfalls signifikante Verbesserungen. Die mit UniFilter kuratierten Daten führten zu einer bemerkenswerten Steigerung der In-Context Learning-Fähigkeiten von MLLMs, insbesondere bei 0-Shot-, 4-Shot- und 8-Shot-VQA-Aufgaben. Dies belegt den Vorteil einer effektiven Filterung von verschachtelten Daten.

    Vorteile nach dem visuellen Supervised Fine-Tuning (SFT)

    Auch nach dem visuellen Supervised Fine-Tuning zeigten die mit UniFilter vortrainierten MLLMs eine überlegene Leistung. Sie übertrafen die besten Baselines in verschiedenen VQA-Aufgaben und Multimodal-Benchmarks wie MMMU und MMBench, was die nachhaltigen Vorteile einer hochwertigen multimodalen Vorab-Schulung demonstriert. Die Notwendigkeit dieser Vorab-Schulung wird durch die deutlich schlechtere Leistung von Modellen, die ausschließlich durch SFT trainiert wurden, weiter untermauert.

    Fazit und Ausblick

    Die Einführung von UniFilter stellt einen Fortschritt in der Datenqualitätskontrolle für Multimodale Große Sprachmodelle dar. Durch seinen einheitlichen Ansatz zur Filterung von Bild-Text-Bildunterschriften und verschachtelten Dokumentendaten, unterstützt durch eine effiziente semi-synthetische Datengenerierung, trägt UniFilter maßgeblich zur Verbesserung der Leistungsfähigkeit von MLLMs bei. Die erzielten Ergebnisse in Bezug auf Zero-Shot Reasoning und In-Context Learning unterstreichen das Potenzial dieses Ansatzes, robustere und vielseitigere KI-Modelle zu ermöglichen.

    Es bleibt jedoch zu beachten, dass die Qualität der synthetisch generierten Texte von den Fähigkeiten des zugrunde liegenden proprietären MLLM abhängt. Zukünftige Forschungsarbeiten könnten die Nutzung fortschrittlicher Open-Source-Modelle zur Datengenerierung untersuchen, um eine vergleichbare Qualitätsklassifizierungsleistung wie bei Closed-Source-MLLMs zu erzielen und potenzielle Sicherheitsbedenken im Zusammenhang mit synthetischen Texten weiter zu minimieren.

    Bibliographie

    - Wang, W., Lin, R., Li, S., Lockard, C., Sarkhel, R., Lokegaonkar, S., Shang, J., Yan, X., Zalmout, N., & Li, X. (2025). Train a Unified Multimodal Data Quality Classifier with Synthetic Data. arXiv preprint arXiv:2510.15162. Verfügbar unter: https://www.amazon.science/publications/train-a-unified-multimodal-data-quality-classifier-with-synthetic-data - Hugging Face. (2025). Daily Papers - Train a Unified Multimodal Data Quality Classifier with Synthetic Data. Verfügbar unter: https://huggingface.co/papers/2510.15162 - AIDC-AI. (2025). Awesome-Unified-Multimodal-Models. GitHub. Verfügbar unter: https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models - Ye, J., Zhou, B., Huang, Z., Zhang, J., Bai, T., Kang, H., He, J., Lin, H., Wang, Z., Wu, T., Wu, Z., Chen, Y., Lin, D., He, C., & Li, W. (2024). LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models. arXiv preprint arXiv:2410.09732. Verfügbar unter: https://huggingface.co/papers/2410.09732

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen