Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die rapide Entwicklung im Bereich der Künstlichen Intelligenz, insbesondere bei Multimodalen Großen Sprachmodellen (MLLMs), wird maßgeblich durch die Verfügbarkeit und Qualität der Trainingsdaten beeinflusst. Während bisher viel Wert auf die schiere Menge der Daten gelegt wurde, rückt nun die Datenqualität in den Fokus. Eine aktuelle Forschungsarbeit stellt einen innovativen Ansatz zur Verbesserung dieser Qualität vor: den Unified Multimodal Data Quality Classifier, kurz UniFilter.
Multimodale Große Sprachmodelle werden kontinuierlich auf einer Mischung aus Bild-Text-Daten (Bildunterschriften) und verschachtelten Dokumentendaten vortrainiert. Die Filterung hochqualitativer Daten, insbesondere bei komplexen, verschachtelten Bild-Text-Dokumenten, war bisher eine untererforschte Domäne. Bestehende Methoden wie der CLIPScore-Filter sind primär auf einzelne Bild-Text-Paare ausgelegt und stoßen bei Dokumenten mit mehreren Bildern und längeren Textabschnitten an ihre Grenzen. Die Qualität der Trainingsdaten stellt jedoch einen wesentlichen Engpass dar, der die Entwicklung leistungsfähigerer Modelle behindert.
Um dieser Herausforderung zu begegnen, wurde UniFilter entwickelt. Hierbei handelt es sich um ein effizientes MLLM, das als universeller Datenqualitätsklassifikator fungiert. Seine primäre Aufgabe ist es, sowohl hochqualitative Bild-Text-Bildunterschriften als auch verschachtelte Daten zu identifizieren und zu filtern. Durch die Nutzung einer MLLM-Architektur überwindet UniFilter die Beschränkungen früherer, CLIP-basierter Ansätze, die nur einzelne Bild-Text-Paare verarbeiten konnten. UniFilter kann sowohl gepaarte als auch verschachtelte Daten verarbeiten und einen Qualitätswert ausgeben, der die Güte der multimodalen Datenprobe anzeigt.
Eine zentrale Herausforderung beim Training eines effektiven Datenqualitätsklassifikators ist die Beschaffung vielfältiger, annotierter multimodaler Daten. Menschliche Annotationen sind kostspielig und oft in ihrer Konsistenz schwer zu gewährleisten. Die Forscher schlugen daher einen neuartigen semi-synthetischen Ansatz zur Datengenerierung vor. Dieser Ansatz kombiniert:
Diese vier Qualitätsstufen umfassen "Easy Negative", "Medium Negative", "Hard Negative" und "Positive", um das gesamte Spektrum der Datenqualität abzubilden. Dieser granulare Ansatz ermöglicht es dem Klassifikator, diskriminierende Merkmale über verschiedene Qualitätsniveaus hinweg zu lernen. Die synthetischen Daten werden als Probe-Score-Paare konstruiert, wobei die Scores 0, 1, 2 und 3 den definierten Qualitätsstufen entsprechen.
Die Architektur von UniFilter basiert auf einem MLLM und integriert drei Hauptmodule: einen Vision Encoder, einen Vision-Language Projector und einen LLM-Backbone. Um sowohl Leistungsfähigkeit als auch Effizienz zu gewährleisten, wurden umfassende Ablationsstudien durchgeführt. Die optimale Konfiguration, die ein ausgewogenes Verhältnis zwischen Klassifikationsleistung und Inferenzgeschwindigkeit bietet, umfasst:
Diese Konfiguration ermöglicht eine hohe Inferenzleistung von 130 Samples/s, was die Effizienz im Vergleich zu ähnlichen Methoden unterstreicht.
Die Wirksamkeit von UniFilter wurde in umfassenden Experimenten mit Bild-Text-Bildunterschriften und verschachtelten Dokumentendaten demonstriert. Die Ergebnisse zeigen deutliche Leistungsverbesserungen gegenüber etablierten Baselines.
Beim Vortraining von MLLMs ausschließlich mit Bild-Text-Bildunterschriften aus dem DataComp-Medium-128M-Pool übertraf UniFilter bestehende Methoden wie Data-Filtering-Network (DFN) und MLMFilter in allen fünf getesteten Zero-Shot Visual Question Answering (VQA)-Datensätzen. Dies unterstreicht die Fähigkeit von UniFilter, hochqualitative Bildunterschriftendaten zu kuratieren, die das Verständnis und die Schlussfolgerungsfähigkeiten von MLLMs verbessern.
Die Anwendung von UniFilter auf gemischte Daten, bestehend aus Bild-Text-Bildunterschriften und verschachtelten Dokumentendaten (aus OBELICS), zeigte ebenfalls signifikante Verbesserungen. Die mit UniFilter kuratierten Daten führten zu einer bemerkenswerten Steigerung der In-Context Learning-Fähigkeiten von MLLMs, insbesondere bei 0-Shot-, 4-Shot- und 8-Shot-VQA-Aufgaben. Dies belegt den Vorteil einer effektiven Filterung von verschachtelten Daten.
Auch nach dem visuellen Supervised Fine-Tuning zeigten die mit UniFilter vortrainierten MLLMs eine überlegene Leistung. Sie übertrafen die besten Baselines in verschiedenen VQA-Aufgaben und Multimodal-Benchmarks wie MMMU und MMBench, was die nachhaltigen Vorteile einer hochwertigen multimodalen Vorab-Schulung demonstriert. Die Notwendigkeit dieser Vorab-Schulung wird durch die deutlich schlechtere Leistung von Modellen, die ausschließlich durch SFT trainiert wurden, weiter untermauert.
Die Einführung von UniFilter stellt einen Fortschritt in der Datenqualitätskontrolle für Multimodale Große Sprachmodelle dar. Durch seinen einheitlichen Ansatz zur Filterung von Bild-Text-Bildunterschriften und verschachtelten Dokumentendaten, unterstützt durch eine effiziente semi-synthetische Datengenerierung, trägt UniFilter maßgeblich zur Verbesserung der Leistungsfähigkeit von MLLMs bei. Die erzielten Ergebnisse in Bezug auf Zero-Shot Reasoning und In-Context Learning unterstreichen das Potenzial dieses Ansatzes, robustere und vielseitigere KI-Modelle zu ermöglichen.
Es bleibt jedoch zu beachten, dass die Qualität der synthetisch generierten Texte von den Fähigkeiten des zugrunde liegenden proprietären MLLM abhängt. Zukünftige Forschungsarbeiten könnten die Nutzung fortschrittlicher Open-Source-Modelle zur Datengenerierung untersuchen, um eine vergleichbare Qualitätsklassifizierungsleistung wie bei Closed-Source-MLLMs zu erzielen und potenzielle Sicherheitsbedenken im Zusammenhang mit synthetischen Texten weiter zu minimieren.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen