KI für Ihr Unternehmen – Jetzt Demo buchen

Verbesserung des räumlichen Verständnisses in multimodalen Sprachmodellen durch simuliertes Training

Kategorien:
No items found.
Freigegeben:
November 9, 2025

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Multimodale Sprachmodelle (MLMs) zeigen Lücken im räumlichen Verständnis, insbesondere bei dynamischen Szenarien.
    • Das SIMS-V Framework nutzt 3D-Simulatoren, um synthetische Trainingsdaten mit präzisen räumlichen Annotationen zu generieren.
    • Drei spezifische Fragetypen – metrische Messung, perspektivabhängiges Denken und temporales Tracking – sind besonders effektiv für die Entwicklung übertragbarer räumlicher Intelligenz.
    • Ein auf 25.000 simulierten Beispielen trainiertes 7B-Parameter Video-LLM übertrifft ein 72B-Baseline-Modell und erreicht vergleichbare Leistungen mit proprietären Modellen.
    • Die Forschung zeigt, dass simuliertes Training zu einer robusten Generalisierung führt und die Leistung bei realen räumlichen Aufgaben erheblich verbessert.

    Verbessertes räumliches Videoverständnis durch simuliertes Instruction-Tuning

    Die Fähigkeit von multimodalen Sprachmodellen (MLMs), räumliche Beziehungen in Videos präzise zu erfassen und zu interpretieren, ist ein entscheidender Faktor für ihre Anwendung in komplexen Szenarien wie der Robotik oder autonomen Systemen. Aktuelle Forschungsergebnisse beleuchten jedoch, dass diese Modelle, trotz ihrer fortschrittlichen Fähigkeiten im allgemeinen Videoverständnis, oft Schwierigkeiten mit dem räumlichen Denken über Zeit und Raum hinweg haben. Eine neue Studie mit dem Titel "SIMS-V: Simulated Instruction-Tuning for Spatial Video Understanding" präsentiert einen innovativen Ansatz, um diese Lücke durch den Einsatz von simulierten Daten zu schließen.

    Die Herausforderung des räumlichen Verständnisses in MLMs

    Multimodale Sprachmodelle sind in der Lage, hochkomplexe Informationen aus Videos zu verarbeiten und zu interpretieren. Dennoch stoßen sie an ihre Grenzen, wenn es um das Verständnis dynamischer räumlicher Beziehungen geht. Dies umfasst beispielsweise die korrekte Einschätzung von Entfernungen, die Interpretation von Szenen aus verschiedenen Perspektiven oder die Verfolgung von Objekten über einen längeren Zeitraum. Ein wesentlicher Grund hierfür ist der hohe Aufwand und die Schwierigkeit, vielfältige reale Videodaten mit präzisen räumlichen Annotationen zu sammeln.

    SIMS-V: Ein Framework für synthetische Trainingsdaten

    Das vorgestellte SIMS-V Framework begegnet dieser Herausforderung durch die Generierung von räumlich reichen Videotrainingsdaten mithilfe von 3D-Simulatoren. Dieser Ansatz nutzt die inhärenten Vorteile von Simulationen, wie die exakte Kontrolle über 3D-Informationen und die Möglichkeit, Aktionen und deren Konsequenzen präzise zu verfolgen. Durch die Verwendung von 22.000 prozedural generierten Szenen aus der ProcTHOR-10K-Datenbank wurden 175.000 Frage-Antwort-Paare erstellt, die sowohl statische als auch dynamische räumliche Beziehungen abdecken.

    Schlüsselkomponenten der Datengenerierung

    • Statische räumliche Fragen: Diese umfassen Fragen zu relativen Positionen von Objekten (z.B. links/rechts, oben/unten), relativen Tiefen und Zählaufgaben.
    • Dynamische räumliche Fragen: Inspiriert von kognitiven Tests beim Menschen, wurden fünf komplexe Aufgabenkategorien entwickelt, die dynamisches Denken erfordern: - Egozentrische Bewegung: Beurteilung der eigenen Bewegung im Raum. - Objektbewegung: Verfolgung der Bewegung von Objekten in der Szene. - Allozentrische Perspektive: Einnahme der Perspektive eines anderen Beobachters. - Zielausrichtung: Bestimmung der Richtung, um ein Zielobjekt anzuvisieren. - Aktionskonsequenz: Vorhersage, wie sich räumliche Beziehungen nach einer Bewegung ändern.

    Effektive Fragetypen für den Wissenstransfer

    Die Studie untersuchte systematisch, welche Eigenschaften simulierter Daten den effektivsten Transfer auf reale Szenarien ermöglichen. Dabei zeigte sich, dass ein minimaler Satz von drei Fragetypen besonders wirksam ist, um übertragbare räumliche Intelligenz zu entwickeln:

    • Metrische Messung: Fragen, die genaue quantitative Angaben zu Entfernungen oder Größen erfordern.
    • Perspektivabhängiges Denken: Aufgaben, die das Verständnis erfordern, wie sich Objekte aus unterschiedlichen Blickwinkeln darstellen.
    • Temporales Tracking: Fragen zur Verfolgung von Objekten und deren Veränderungen über die Zeit.

    Diese Erkenntnisse deuten darauf hin, dass eine gezielte Auswahl von Trainingsdaten, die diese spezifischen kognitiven Fähigkeiten adressieren, effizienter sein kann als ein breiter, unspezifischer Ansatz.

    Leistungsverbesserungen und Generalisierung

    Die Ergebnisse der Studie sind vielversprechend: Ein Video-LLM mit 7 Milliarden Parametern, das mit nur 25.000 simulierten Beispielen feinabgestimmt wurde, übertraf ein größeres 72B-Baseline-Modell und erreichte vergleichbare Leistungen mit proprietären Modellen auf anspruchsvollen realen Benchmarks für räumliches Denken. Dies demonstriert die Effizienz des SIMS-V-Ansatzes und die robuste Generalisierungsfähigkeit der trainierten Modelle. Die Modelle zeigten nicht nur erhebliche Verbesserungen bei spezifischen räumlichen Aufgaben, sondern behielten auch ihre Leistung im allgemeinen Videoverständnis bei. Insbesondere bei Aufgaben zur Routenplanung in längeren Videos konnten signifikante Fortschritte erzielt werden, was die Relevanz für Anwendungen in der Robotik und verkörperter KI unterstreicht.

    Implikationen für die Entwicklung von KI

    Diese Forschung liefert wichtige Einblicke in die Verbesserung der räumlichen Denkfähigkeiten von MLMs. Die Möglichkeit, hochwertige, vielfältige und präzise annotierte Trainingsdaten kostengünstig durch Simulationen zu generieren, kann einen Engpass in der Entwicklung robusterer und intelligenterer KI-Systeme beseitigen. Die Konzentration auf gezielt ausgewählte Fragetypen ermöglicht zudem ein effizienteres Training und eine bessere Übertragbarkeit der gelernten Fähigkeiten auf reale Anwendungen. Zukünftige Arbeiten könnten die Interaktionseigenschaften der simulierten Szenen nutzen, um Kausalzusammenhänge und kettenbasiertes Denken weiter zu erforschen und so den Übergang von passiver Wahrnehmung zu aktiver Interaktion in MLMs zu erleichtern.

    Bibliography

    - Brown, E., Ray, A., Krishna, R., Girshick, R., Fergus, R., & Xie, S. (2025). SIMS-V: Simulated Instruction-Tuning for Spatial Video Understanding. arXiv preprint arXiv:2511.04668. - Cambrian-1. (n.d.). Retrieved from https://cambrian-mllm.github.io/ - Daily Papers - Hugging Face. (n.d.). Retrieved from https://huggingface.co/papers/date/2025-11-07 - Ray, A. (n.d.). Arijit Ray's Webpage. Retrieved from https://arijitray.com/ - Papers.cool. (n.d.). Computer Science | Cool Papers - Immersive Paper Discovery. Retrieved from https://papers.cool/arxiv/cs - alphaXiv: Explore. (n.d.). Retrieved from https://www.alphaxiv.org/ - Deep Learning Monitor - Find new Arxiv papers, tweets and Reddit ... (n.d.). Retrieved from https://deeplearn.org/ - Ray, A., Duan, J., Brown, E., Tan, R., Bashkirova, D., Hendrix, R., Ehsani, K., Kembhavi, A., Plummer, B. A., Krishna, R., Zeng, K.-H., & Saenko, K. (n.d.). Dynamic Spatial Aptitude Training for Multimodal Language Models. Retrieved from https://cs-people.bu.edu/array/research/SAT/SAT_arxiv.pdf - Daily Papers - Hugging Face. (n.d.). Retrieved from https://huggingface.co/papers/week/2025-W45

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen