Neuer Ansatz für die präzise Lokalisierung in multimodalen großen Sprachmodellen

Kategorien:

No items found.

Freigegeben:

January 14, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Multi-Image Grounding: Ein neuer Ansatz für Multimodale Große Sprachmodelle

Multimodale Große Sprachmodelle (MLLMs) haben in den letzten Jahren bemerkenswerte Fortschritte erzielt, insbesondere in der detaillierten Wahrnehmung einzelner Bilder und im allgemeinen Verständnis von Bildgruppen. Sie zeigen beeindruckende Fähigkeiten im Bereich der Bild-Text-Verarbeitung und erzielen hervorragende Ergebnisse in verschiedenen Vision-Language-Aufgaben. Die Weiterentwicklung dieser Modelle geht über das Bildverständnis auf Bildebene hinaus und umfasst nun auch die feinkörnige visuelle Lokalisierung, das sogenannte "Grounding". Dies ermöglicht MLLMs, regionenspezifische Ein- und Ausgaben zu verarbeiten und eröffnet ein breiteres Spektrum an multimodalen Anwendungsszenarien.

Die Herausforderung: Präzise Lokalisierung in komplexen Multi-Bild-Szenarien

Trotz der vielversprechenden Fähigkeiten im visuellen Grounding stoßen bestehende MLLMs in komplexen Multi-Bild-Szenarien an ihre Grenzen. Die präzise Lokalisierung von Objekten oder Regionen über mehrere Bilder hinweg, basierend auf frei formulierten Anfragen, stellt eine besondere Herausforderung dar. Diese sogenannte "Free-Form Multi-Image Grounding" (MIG) erfordert ein tiefes Verständnis der visuellen Zusammenhänge zwischen den Bildern und der semantischen Bedeutung der Anfrage.

Ein Beispiel: Ein MLLM erhält die Anfrage "Finde ein Auto wie auf diesem Bild, nur in schwarz" zusammen mit einem Bild eines weißen Autos. Das Modell muss nun in einer Reihe weiterer Bilder das entsprechende schwarze Auto identifizieren und lokalisieren. Diese Fähigkeit ist für zahlreiche Anwendungen relevant, darunter die Umgebungswahrnehmung im autonomen Fahren, die Anomalieerkennung in Überwachungssystemen und die Ziellokalisierung in der Robotik.

Ein Lösungsansatz: Chain-of-Thought (CoT)

Ein möglicher Ansatz zur Bewältigung der MIG-Aufgabe ist die Verwendung eines Chain-of-Thought (CoT) Frameworks. Dieses integriert die Einzelbild-Lokalisierung mit dem Multi-Bild-Verständnis. Der CoT-Ansatz generiert zunächst eine textuelle Beschreibung des gesuchten Objekts basierend auf dem Verständnis der Bildgruppe. Anschließend nutzt er diese Beschreibung zur Lokalisierung des Objekts in den einzelnen Bildern. Dieser Ansatz erweist sich in einfachen Szenarien als teilweise effektiv, zeigt jedoch Schwächen bei der Beschreibung abstrakter visueller Informationen und verdoppelt die Inferenzzeit.

Migician: Ein neuer MLLM für Multi-Image Grounding

Um die Herausforderungen des Free-Form MIG zu bewältigen, wurde Migician entwickelt, ein neuer MLLM, der speziell für die präzise und frei formulierte Lokalisierung über mehrere Bilder hinweg trainiert wurde. Migician basiert auf einem zweistufigen Trainingsprozess, der auf einem neuen, umfangreichen Datensatz namens MGrounding-630k basiert. Dieser Datensatz umfasst Daten für verschiedene MIG-Aufgaben aus bestehenden Datensätzen sowie neu generierte Daten für frei formulierte Grounding-Anweisungen.

Im ersten Trainingsschritt wird die Grounding-Fähigkeit von Migician durch eine Kombination von MIG-Aufgaben und allgemeinen Aufgaben verbessert. Im zweiten Schritt wird das Modell mit hochwertigen, frei formulierten MIG-Anweisungsdaten verfeinert. Dieses zweistufige Training ermöglicht es Migician, komplexe visuelle Zusammenhänge zu erfassen und präzise Lokalisierungen in Multi-Bild-Szenarien durchzuführen.

MIG-Bench: Ein Benchmark für Multi-Image Grounding

Zur Evaluierung der Multi-Image Grounding-Fähigkeiten wurde MIG-Bench entwickelt, ein umfassender Benchmark, der aus zehn verschiedenen Aufgaben, 5.900 Bildern und über 4.200 Testinstanzen besteht. MIG-Bench ermöglicht eine objektive Bewertung der Leistungsfähigkeit von MLLMs im Free-Form MIG und zeigt die Lücke zwischen der Leistung bestehender MLLMs und der menschlichen Leistung auf. Migician erzielt in diesem Benchmark signifikant bessere Ergebnisse als bestehende Methoden und verringert die Lücke zur menschlichen Leistung erheblich.

Fazit

Migician stellt einen wichtigen Schritt in der Entwicklung von MLLMs für Multi-Image Grounding dar. Der neue MLLM, der umfangreiche Datensatz MGrounding-630k und der Benchmark MIG-Bench tragen dazu bei, die Forschung in diesem Bereich voranzutreiben und neue Anwendungsmöglichkeiten für Multi-Image Grounding zu erschließen. Die Ergebnisse zeigen, dass Migician die Herausforderungen des Free-Form MIG effektiv bewältigt und die Leistung bestehender MLLMs deutlich übertrifft.

Bibliographie Rasheed, A., et al. "GLaMM: Pixel Grounding Large Multimodal Model." CVPR 2024. Li, Y., et al. "Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models." arXiv preprint arXiv:2501.05767 (2025).