KI für Ihr Unternehmen – Jetzt Demo buchen

Neuer Ansatz zur Verbesserung des räumlich-zeitlichen Verständnisses von Multimodalen Großen Sprachmodellen

Kategorien:
No items found.
Freigegeben:
October 31, 2025

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Neue Forschungsprojekte konzentrieren sich auf das räumlich-zeitliche Verständnis von Multimodalen Großen Sprachmodellen (MLLMs).
    • "Grounded Spatio-Temporal Evidence" (GSTE) ist ein Ansatz zur Verbesserung der Fähigkeit von MLLMs, komplexe räumlich-zeitliche Zusammenhänge zu erfassen.
    • Verschiedene Open-Source-Initiativen stellen Code, Daten und Modelle zur Verfügung, um die Forschung in diesem Bereich zu fördern.
    • Projekte wie Oryx, LLaVA-ST und VTG-LLM zeigen Fortschritte im Umgang mit visuellen Eingaben über Zeit und Raum hinweg.
    • Benchmarking-Tools wie STI-Bench und die Integration von Zeitstempel-Wissen sind entscheidend für die Bewertung und Verbesserung dieser Modelle.

    Die Fähigkeit von Künstlicher Intelligenz, die Welt so zu verstehen, wie wir sie wahrnehmen – in Bezug auf Objekte, Aktionen und deren Entwicklung über Zeit und Raum –, stellt eine zentrale Herausforderung dar. Insbesondere Multimodale Große Sprachmodelle (MLLMs), die Text- und Bildinformationen verarbeiten können, stoßen an ihre Grenzen, wenn es um das detaillierte räumlich-zeitliche Verständnis geht. Aktuelle Forschungsinitiativen zielen darauf ab, diese Lücke zu schließen, indem sie innovative Methoden und Open-Source-Ressourcen bereitstellen, um die nächste Generation von MLLMs zu entwickeln.

    Verbessertes räumlich-zeitliches Verständnis für MLLMs: Ein neuer Ansatz

    Ein vielversprechender Ansatz zur Verbesserung des räumlich-zeitlichen Verständnisses von MLLMs ist die Einführung einer Methode, die als "grounded spatio-temporal evidence" (GSTE) bezeichnet wird. Diese Methode zielt darauf ab, MLLMs eine fundiertere und präzisere Interpretation von räumlichen und zeitlichen Informationen zu ermöglichen, die in multimodalen Daten wie Videos und 3D-Szenen enthalten sind. Indem die Modelle lernen, konkrete Beweise aus den visuellen Eingaben zu extrahieren und diese mit sprachlichen Beschreibungen zu verknüpfen, können sie komplexere Zusammenhänge erkennen und logische Schlussfolgerungen ziehen.

    Die Entwicklung in diesem Bereich wird durch eine Reihe von Open-Source-Projekten vorangetrieben. Diese Initiativen stellen nicht nur die zugrunde liegenden Codebasen zur Verfügung, sondern auch Datensätze und vortrainierte Modelle, was die Reproduzierbarkeit der Forschung und die Weiterentwicklung durch die breitere Gemeinschaft fördert.

    Oryx: Ein einheitlicher multimodaler Rahmen für räumlich-zeitliches Verständnis

    Ein Beispiel für diese Fortschritte ist das "Oryx MLLM"-Projekt. Oryx wird als ein einheitlicher multimodaler Rahmen beschrieben, der für das räumlich-zeitliche Verständnis von Bildern, Videos und Multi-View-3D-Szenen konzipiert ist. Die Kernidee von Oryx ist ein "On-Demand Multimodal Understanding"-Ansatz, der es dem Modell ermöglicht, visuelle Eingaben beliebiger räumlicher Größe und zeitlicher Länge nahtlos und effizient zu verarbeiten.

    Zu den Hauptmerkmalen von Oryx gehören:

    • On-Demand visuelle Wahrnehmung: Ermöglicht die Verarbeitung von visuellen Daten in ihrer nativen Auflösung.
    • Dynamischer Kompressor: Passt die Komprimierung von visuellen Eingaben an, um Effizienz zu gewährleisten.
    • Leistungsstarke Modelle: Die Oryx-Modelle (verfügbar in 7B und 34B Varianten) erreichen hohe Leistungsfähigkeit über Bild-, Video- und 3D-Benchmarks hinweg, teilweise übertreffen sie kommerzielle Modelle in bestimmten Bereichen.

    Die Veröffentlichung von Code, Daten und Modell-Checkpoints auf Plattformen wie GitHub und Hugging Face ermöglicht es Forschern und Entwicklern, die Modelle zu nutzen, zu evaluieren und weiterzuentwickeln.

    LLaVA-ST: Fein-granulares räumlich-zeitliches Verständnis

    Ein weiteres bemerkenswertes Projekt ist LLaVA-ST, ein Multimodales Großes Sprachmodell, das speziell für das fein-granulare räumlich-zeitliche Verständnis entwickelt wurde. Bestehende MLLMs haben oft Schwierigkeiten, sowohl temporale als auch räumliche Lokalisierung gleichzeitig und präzise zu handhaben. LLaVA-ST adressiert diese Herausforderung durch zwei Hauptinnovationen:

    • Language-Aligned Positional Embedding: Eine Methode zur besseren Verknüpfung sprachlicher und visueller Koordinatenrepräsentationen.
    • Spatial-Temporal Packer: Eine Technik zur effizienten Kodierung fein-granularer temporal-räumlicher Informationen während der Videofeatur-Kompression.

    Zusätzlich wurde der ST-Align-Datensatz mit 4,3 Millionen Trainingsbeispielen und ein ST-Align-Benchmark eingeführt, um die Leistung von LLaVA-ST in Aufgaben wie "Spatial-Temporal Video Grounding" und "Event Localization and Captioning" zu bewerten. LLaVA-ST wird als das erste MLLM bezeichnet, das in der Lage ist, fein-granulare räumlich-zeitliche Aufgaben gleichzeitig zu verarbeiten.

    VTG-LLM: Integration von Zeitstempel-Wissen

    Das Projekt VTG-LLM (Video Temporal Grounding LLM) konzentriert sich auf die Integration von Zeitstempel-Wissen in Video-LLMs, um das temporale Grounding von Videos zu verbessern. Dies ist entscheidend für Aufgaben, bei denen spezifische Zeitintervalle in Videos basierend auf einer sprachlichen Beschreibung identifiziert werden müssen. VTG-LLM führt mehrere Schlüsselkomponenten ein:

    • VTG-IT-120K: Ein hochwertiger Datensatz für Instruktions-Tuning, der Aufgaben wie Moment-Retrieval, dichte Video-Captioning und Video-Highlight-Erkennung abdeckt.
    • Effektive Integration von Zeitstempel-Wissen: VTG-LLM integriert Zeitstempel-Informationen direkt in visuelle Token.
    • Absolute Zeit-Token: Spezielle Token, die das Zeitstempel-Wissen verarbeiten und Konzeptverschiebungen vermeiden.
    • Leichte Token-Komprimierung: Eine effiziente Methode zur Komprimierung von Token, die das Sampling von mehr Videoframes ermöglicht.

    Diese Innovationen tragen dazu bei, dass Video-LLMs ein präziseres Verständnis der zeitlichen Dimension in Videoinhalten entwickeln können.

    Temporal Working Memory (TWM): Verbesserung der temporalen Modellierung

    Ein weiterer Beitrag zur Verbesserung multimodaler Modelle ist die Einführung des "Temporal Working Memory" (TWM). TWM zielt darauf ab, die temporale Modellierungsfähigkeit von Multimodalen Foundation Models (MFMs) zu verbessern, indem es aufgabenspezifische Informationen über zeitliche Dimensionen hinweg selektiv beibehält. Dieses Modul kann einfach in bestehende MFMs integriert werden und hat gezeigt, dass es die Leistung in Aufgaben wie Frage-Antwort, Video-Captioning und Video-Text-Retrieval signifikant verbessert.

    TWM nutzt einen "query-guided attention"-Ansatz, um sich auf die informativsten multimodalen Segmente innerhalb temporaler Sequenzen zu konzentrieren. Durch die Beibehaltung nur der relevantesten Inhalte wird die begrenzte Kapazität des Modells optimiert und seine Fähigkeit zur temporalen Modellierung gesteigert.

    Multi-SpatialMLLM: Räumliches Verständnis über mehrere Frames hinweg

    Multi-SpatialMLLM, ein Projekt von Facebook AI Research, stattet MLLMs mit einem robusten räumlichen Verständnis über mehrere Frames hinweg aus. Dies wird durch die Integration von Tiefenwahrnehmung, visueller Korrespondenz und dynamischer Wahrnehmung erreicht. Das Herzstück dieses Ansatzes ist der MultiSPA-Datensatz, eine Sammlung von über 27 Millionen Samples aus 3D- und 4D-Szenen. Ein umfassender Benchmark testet dabei ein breites Spektrum räumlicher Aufgaben unter einheitlichen Metriken. Die Ergebnisse zeigen signifikante Verbesserungen gegenüber Baselines und proprietären Systemen, was auf skalierbares und generalisierbares Multi-Frame-Reasoning hindeutet.

    STI-Bench: Ein Benchmark für präzises räumlich-zeitliches Weltverständnis

    Um die Fortschritte im räumlich-zeitlichen Verständnis von MLLMs objektiv bewerten zu können, wurde der "Spatial-Temporal Intelligence Benchmark" (STI-Bench) entwickelt. Dieser Benchmark untersucht die Fähigkeit von MLLMs, präzise und quantitative räumlich-zeitliche Schlussfolgerungen in realen Anwendungen zu ziehen, wie sie beispielsweise in der Robotik und beim autonomen Fahren erforderlich sind.

    STI-Bench umfasst herausfordernde Aufgaben auf Basis realer Videodaten, darunter die Schätzung und Vorhersage von Objekterscheinungen, Posen, Verschiebungen und Bewegungen. Erste Experimente mit STI-Bench zeigen, dass selbst modernste MLLMs erhebliche Schwierigkeiten mit Aufgaben haben, die präzise Distanzschätzung und Bewegungsanalyse erfordern. Dies unterstreicht den Bedarf an weiterer Forschung und Entwicklung in diesem Bereich.

    Herausforderungen und Ausblick

    Die Integration von räumlich-zeitlichem Verständnis in MLLMs ist ein komplexes Unterfangen. Zu den größten Herausforderungen gehören die schiere Menge an Koordinatenkombinationen, die bei der räumlich-zeitlichen Lokalisierung entstehen, die Schwierigkeit, fein-granulare temporale und räumliche Informationen während der Videofeatur-Kompression zu kodieren, und die Notwendigkeit, Modelle zu entwickeln, die nicht nur semantisches, sondern auch präzises quantitatives Verständnis aufweisen.

    Die Open-Source-Verfügbarkeit von Code, Daten und Modellen, wie sie von Oryx, LLaVA-ST und VTG-LLM demonstriert wird, ist ein entscheidender Faktor für die Beschleunigung der Forschung in diesem Bereich. Benchmarking-Tools wie STI-Bench sind unerlässlich, um den Fortschritt zu messen und die Entwicklung von MLLMs voranzutreiben, die ein zuverlässiges und präzises Verständnis der physischen Welt entwickeln können. Die aktuelle Forschung deutet darauf hin, dass die Entwicklung von MLLMs mit einem wirklich tiefgreifenden räumlich-zeitlichen Verständnis noch am Anfang steht, aber die Grundlagen für signifikante Fortschritte gelegt werden.

    Bibliography

    - "Spatio-Temporal LLM: Reasoning about Environments and Actions", arXiv, 2022. - "GitHub - Oryx-mllm/Oryx: [ICLR 2025] MLLM for On-Demand Spatial-Temporal Understanding at Arbitrary Resolution", Oryx-mllm, 2024. - "GitHub - appletea233/LLaVA-ST: [CVPR 2025] LLaVA-ST: A Multimodal Large Language Model for Fine-Grained Spatial-Temporal Understanding", appletea233, 2025. - "GitHub - gyxxyg/VTG-LLM: [AAAI 2025] VTG-LLM: Integrating Timestamp Knowledge into Video LLMs for Enhanced Video Temporal Grounding", gyxxyg, 2024. - "GitHub - xid32/NAACL_2025_TWM: We introduce temporal working memory (TWM), which aims to enhance the temporal modeling capabilities of Multimodal foundation models (MFMs). This plug-and-play module can be easily integrated into existing MFMs. With our TWM, nine state-of-the-art models exhibit significant performance improvements across QA, captioning, and retrieval tasks.", xid32, 2025. - "GitHub - facebookresearch/Multi-SpatialMLLM: Multi-SpatialMLLM Multi-Frame Spatial Understanding with Multi-Modal Large Language Models", facebookresearch, 2025. - "GitHub - MINT-SJTU/STI-Bench: STI-Bench : Are MLLMs Ready for Precise Spatial-Temporal World Understanding?", MINT-SJTU, 2025. - "lots of little things happened this week | AINews", AINews, 2025.

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen