Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Fähigkeit von Künstlicher Intelligenz, die Welt so zu verstehen, wie wir sie wahrnehmen – in Bezug auf Objekte, Aktionen und deren Entwicklung über Zeit und Raum –, stellt eine zentrale Herausforderung dar. Insbesondere Multimodale Große Sprachmodelle (MLLMs), die Text- und Bildinformationen verarbeiten können, stoßen an ihre Grenzen, wenn es um das detaillierte räumlich-zeitliche Verständnis geht. Aktuelle Forschungsinitiativen zielen darauf ab, diese Lücke zu schließen, indem sie innovative Methoden und Open-Source-Ressourcen bereitstellen, um die nächste Generation von MLLMs zu entwickeln.
Ein vielversprechender Ansatz zur Verbesserung des räumlich-zeitlichen Verständnisses von MLLMs ist die Einführung einer Methode, die als "grounded spatio-temporal evidence" (GSTE) bezeichnet wird. Diese Methode zielt darauf ab, MLLMs eine fundiertere und präzisere Interpretation von räumlichen und zeitlichen Informationen zu ermöglichen, die in multimodalen Daten wie Videos und 3D-Szenen enthalten sind. Indem die Modelle lernen, konkrete Beweise aus den visuellen Eingaben zu extrahieren und diese mit sprachlichen Beschreibungen zu verknüpfen, können sie komplexere Zusammenhänge erkennen und logische Schlussfolgerungen ziehen.
Die Entwicklung in diesem Bereich wird durch eine Reihe von Open-Source-Projekten vorangetrieben. Diese Initiativen stellen nicht nur die zugrunde liegenden Codebasen zur Verfügung, sondern auch Datensätze und vortrainierte Modelle, was die Reproduzierbarkeit der Forschung und die Weiterentwicklung durch die breitere Gemeinschaft fördert.
Ein Beispiel für diese Fortschritte ist das "Oryx MLLM"-Projekt. Oryx wird als ein einheitlicher multimodaler Rahmen beschrieben, der für das räumlich-zeitliche Verständnis von Bildern, Videos und Multi-View-3D-Szenen konzipiert ist. Die Kernidee von Oryx ist ein "On-Demand Multimodal Understanding"-Ansatz, der es dem Modell ermöglicht, visuelle Eingaben beliebiger räumlicher Größe und zeitlicher Länge nahtlos und effizient zu verarbeiten.
Zu den Hauptmerkmalen von Oryx gehören:
Die Veröffentlichung von Code, Daten und Modell-Checkpoints auf Plattformen wie GitHub und Hugging Face ermöglicht es Forschern und Entwicklern, die Modelle zu nutzen, zu evaluieren und weiterzuentwickeln.
Ein weiteres bemerkenswertes Projekt ist LLaVA-ST, ein Multimodales Großes Sprachmodell, das speziell für das fein-granulare räumlich-zeitliche Verständnis entwickelt wurde. Bestehende MLLMs haben oft Schwierigkeiten, sowohl temporale als auch räumliche Lokalisierung gleichzeitig und präzise zu handhaben. LLaVA-ST adressiert diese Herausforderung durch zwei Hauptinnovationen:
Zusätzlich wurde der ST-Align-Datensatz mit 4,3 Millionen Trainingsbeispielen und ein ST-Align-Benchmark eingeführt, um die Leistung von LLaVA-ST in Aufgaben wie "Spatial-Temporal Video Grounding" und "Event Localization and Captioning" zu bewerten. LLaVA-ST wird als das erste MLLM bezeichnet, das in der Lage ist, fein-granulare räumlich-zeitliche Aufgaben gleichzeitig zu verarbeiten.
Das Projekt VTG-LLM (Video Temporal Grounding LLM) konzentriert sich auf die Integration von Zeitstempel-Wissen in Video-LLMs, um das temporale Grounding von Videos zu verbessern. Dies ist entscheidend für Aufgaben, bei denen spezifische Zeitintervalle in Videos basierend auf einer sprachlichen Beschreibung identifiziert werden müssen. VTG-LLM führt mehrere Schlüsselkomponenten ein:
Diese Innovationen tragen dazu bei, dass Video-LLMs ein präziseres Verständnis der zeitlichen Dimension in Videoinhalten entwickeln können.
Ein weiterer Beitrag zur Verbesserung multimodaler Modelle ist die Einführung des "Temporal Working Memory" (TWM). TWM zielt darauf ab, die temporale Modellierungsfähigkeit von Multimodalen Foundation Models (MFMs) zu verbessern, indem es aufgabenspezifische Informationen über zeitliche Dimensionen hinweg selektiv beibehält. Dieses Modul kann einfach in bestehende MFMs integriert werden und hat gezeigt, dass es die Leistung in Aufgaben wie Frage-Antwort, Video-Captioning und Video-Text-Retrieval signifikant verbessert.
TWM nutzt einen "query-guided attention"-Ansatz, um sich auf die informativsten multimodalen Segmente innerhalb temporaler Sequenzen zu konzentrieren. Durch die Beibehaltung nur der relevantesten Inhalte wird die begrenzte Kapazität des Modells optimiert und seine Fähigkeit zur temporalen Modellierung gesteigert.
Multi-SpatialMLLM, ein Projekt von Facebook AI Research, stattet MLLMs mit einem robusten räumlichen Verständnis über mehrere Frames hinweg aus. Dies wird durch die Integration von Tiefenwahrnehmung, visueller Korrespondenz und dynamischer Wahrnehmung erreicht. Das Herzstück dieses Ansatzes ist der MultiSPA-Datensatz, eine Sammlung von über 27 Millionen Samples aus 3D- und 4D-Szenen. Ein umfassender Benchmark testet dabei ein breites Spektrum räumlicher Aufgaben unter einheitlichen Metriken. Die Ergebnisse zeigen signifikante Verbesserungen gegenüber Baselines und proprietären Systemen, was auf skalierbares und generalisierbares Multi-Frame-Reasoning hindeutet.
Um die Fortschritte im räumlich-zeitlichen Verständnis von MLLMs objektiv bewerten zu können, wurde der "Spatial-Temporal Intelligence Benchmark" (STI-Bench) entwickelt. Dieser Benchmark untersucht die Fähigkeit von MLLMs, präzise und quantitative räumlich-zeitliche Schlussfolgerungen in realen Anwendungen zu ziehen, wie sie beispielsweise in der Robotik und beim autonomen Fahren erforderlich sind.
STI-Bench umfasst herausfordernde Aufgaben auf Basis realer Videodaten, darunter die Schätzung und Vorhersage von Objekterscheinungen, Posen, Verschiebungen und Bewegungen. Erste Experimente mit STI-Bench zeigen, dass selbst modernste MLLMs erhebliche Schwierigkeiten mit Aufgaben haben, die präzise Distanzschätzung und Bewegungsanalyse erfordern. Dies unterstreicht den Bedarf an weiterer Forschung und Entwicklung in diesem Bereich.
Die Integration von räumlich-zeitlichem Verständnis in MLLMs ist ein komplexes Unterfangen. Zu den größten Herausforderungen gehören die schiere Menge an Koordinatenkombinationen, die bei der räumlich-zeitlichen Lokalisierung entstehen, die Schwierigkeit, fein-granulare temporale und räumliche Informationen während der Videofeatur-Kompression zu kodieren, und die Notwendigkeit, Modelle zu entwickeln, die nicht nur semantisches, sondern auch präzises quantitatives Verständnis aufweisen.
Die Open-Source-Verfügbarkeit von Code, Daten und Modellen, wie sie von Oryx, LLaVA-ST und VTG-LLM demonstriert wird, ist ein entscheidender Faktor für die Beschleunigung der Forschung in diesem Bereich. Benchmarking-Tools wie STI-Bench sind unerlässlich, um den Fortschritt zu messen und die Entwicklung von MLLMs voranzutreiben, die ein zuverlässiges und präzises Verständnis der physischen Welt entwickeln können. Die aktuelle Forschung deutet darauf hin, dass die Entwicklung von MLLMs mit einem wirklich tiefgreifenden räumlich-zeitlichen Verständnis noch am Anfang steht, aber die Grundlagen für signifikante Fortschritte gelegt werden.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen