Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Multimodale Große Sprachmodelle (MLLMs) haben in den letzten Jahren bemerkenswerte Fortschritte erzielt, insbesondere in der detaillierten Wahrnehmung einzelner Bilder und im allgemeinen Verständnis von Bildgruppen. Sie zeigen beeindruckende Fähigkeiten im Bereich der Bild-Text-Verarbeitung und erzielen hervorragende Ergebnisse in verschiedenen Vision-Language-Aufgaben. Die Weiterentwicklung dieser Modelle geht über das Bildverständnis auf Bildebene hinaus und umfasst nun auch die feinkörnige visuelle Lokalisierung, das sogenannte "Grounding". Dies ermöglicht MLLMs, regionenspezifische Ein- und Ausgaben zu verarbeiten und eröffnet ein breiteres Spektrum an multimodalen Anwendungsszenarien.
Trotz der vielversprechenden Fähigkeiten im visuellen Grounding stoßen bestehende MLLMs in komplexen Multi-Bild-Szenarien an ihre Grenzen. Die präzise Lokalisierung von Objekten oder Regionen über mehrere Bilder hinweg, basierend auf frei formulierten Anfragen, stellt eine besondere Herausforderung dar. Diese sogenannte "Free-Form Multi-Image Grounding" (MIG) erfordert ein tiefes Verständnis der visuellen Zusammenhänge zwischen den Bildern und der semantischen Bedeutung der Anfrage.
Ein Beispiel: Ein MLLM erhält die Anfrage "Finde ein Auto wie auf diesem Bild, nur in schwarz" zusammen mit einem Bild eines weißen Autos. Das Modell muss nun in einer Reihe weiterer Bilder das entsprechende schwarze Auto identifizieren und lokalisieren. Diese Fähigkeit ist für zahlreiche Anwendungen relevant, darunter die Umgebungswahrnehmung im autonomen Fahren, die Anomalieerkennung in Überwachungssystemen und die Ziellokalisierung in der Robotik.
Ein möglicher Ansatz zur Bewältigung der MIG-Aufgabe ist die Verwendung eines Chain-of-Thought (CoT) Frameworks. Dieses integriert die Einzelbild-Lokalisierung mit dem Multi-Bild-Verständnis. Der CoT-Ansatz generiert zunächst eine textuelle Beschreibung des gesuchten Objekts basierend auf dem Verständnis der Bildgruppe. Anschließend nutzt er diese Beschreibung zur Lokalisierung des Objekts in den einzelnen Bildern. Dieser Ansatz erweist sich in einfachen Szenarien als teilweise effektiv, zeigt jedoch Schwächen bei der Beschreibung abstrakter visueller Informationen und verdoppelt die Inferenzzeit.
Um die Herausforderungen des Free-Form MIG zu bewältigen, wurde Migician entwickelt, ein neuer MLLM, der speziell für die präzise und frei formulierte Lokalisierung über mehrere Bilder hinweg trainiert wurde. Migician basiert auf einem zweistufigen Trainingsprozess, der auf einem neuen, umfangreichen Datensatz namens MGrounding-630k basiert. Dieser Datensatz umfasst Daten für verschiedene MIG-Aufgaben aus bestehenden Datensätzen sowie neu generierte Daten für frei formulierte Grounding-Anweisungen.
Im ersten Trainingsschritt wird die Grounding-Fähigkeit von Migician durch eine Kombination von MIG-Aufgaben und allgemeinen Aufgaben verbessert. Im zweiten Schritt wird das Modell mit hochwertigen, frei formulierten MIG-Anweisungsdaten verfeinert. Dieses zweistufige Training ermöglicht es Migician, komplexe visuelle Zusammenhänge zu erfassen und präzise Lokalisierungen in Multi-Bild-Szenarien durchzuführen.
Zur Evaluierung der Multi-Image Grounding-Fähigkeiten wurde MIG-Bench entwickelt, ein umfassender Benchmark, der aus zehn verschiedenen Aufgaben, 5.900 Bildern und über 4.200 Testinstanzen besteht. MIG-Bench ermöglicht eine objektive Bewertung der Leistungsfähigkeit von MLLMs im Free-Form MIG und zeigt die Lücke zwischen der Leistung bestehender MLLMs und der menschlichen Leistung auf. Migician erzielt in diesem Benchmark signifikant bessere Ergebnisse als bestehende Methoden und verringert die Lücke zur menschlichen Leistung erheblich.
Migician stellt einen wichtigen Schritt in der Entwicklung von MLLMs für Multi-Image Grounding dar. Der neue MLLM, der umfangreiche Datensatz MGrounding-630k und der Benchmark MIG-Bench tragen dazu bei, die Forschung in diesem Bereich voranzutreiben und neue Anwendungsmöglichkeiten für Multi-Image Grounding zu erschließen. Die Ergebnisse zeigen, dass Migician die Herausforderungen des Free-Form MIG effektiv bewältigt und die Leistung bestehender MLLMs deutlich übertrifft.
Bibliographie Rasheed, A., et al. "GLaMM: Pixel Grounding Large Multimodal Model." CVPR 2024. Li, Y., et al. "Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models." arXiv preprint arXiv:2501.05767 (2025).Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen