Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Fähigkeit von multimodalen Sprachmodellen (MLMs), räumliche Beziehungen in Videos präzise zu erfassen und zu interpretieren, ist ein entscheidender Faktor für ihre Anwendung in komplexen Szenarien wie der Robotik oder autonomen Systemen. Aktuelle Forschungsergebnisse beleuchten jedoch, dass diese Modelle, trotz ihrer fortschrittlichen Fähigkeiten im allgemeinen Videoverständnis, oft Schwierigkeiten mit dem räumlichen Denken über Zeit und Raum hinweg haben. Eine neue Studie mit dem Titel "SIMS-V: Simulated Instruction-Tuning for Spatial Video Understanding" präsentiert einen innovativen Ansatz, um diese Lücke durch den Einsatz von simulierten Daten zu schließen.
Multimodale Sprachmodelle sind in der Lage, hochkomplexe Informationen aus Videos zu verarbeiten und zu interpretieren. Dennoch stoßen sie an ihre Grenzen, wenn es um das Verständnis dynamischer räumlicher Beziehungen geht. Dies umfasst beispielsweise die korrekte Einschätzung von Entfernungen, die Interpretation von Szenen aus verschiedenen Perspektiven oder die Verfolgung von Objekten über einen längeren Zeitraum. Ein wesentlicher Grund hierfür ist der hohe Aufwand und die Schwierigkeit, vielfältige reale Videodaten mit präzisen räumlichen Annotationen zu sammeln.
Das vorgestellte SIMS-V Framework begegnet dieser Herausforderung durch die Generierung von räumlich reichen Videotrainingsdaten mithilfe von 3D-Simulatoren. Dieser Ansatz nutzt die inhärenten Vorteile von Simulationen, wie die exakte Kontrolle über 3D-Informationen und die Möglichkeit, Aktionen und deren Konsequenzen präzise zu verfolgen. Durch die Verwendung von 22.000 prozedural generierten Szenen aus der ProcTHOR-10K-Datenbank wurden 175.000 Frage-Antwort-Paare erstellt, die sowohl statische als auch dynamische räumliche Beziehungen abdecken.
Die Studie untersuchte systematisch, welche Eigenschaften simulierter Daten den effektivsten Transfer auf reale Szenarien ermöglichen. Dabei zeigte sich, dass ein minimaler Satz von drei Fragetypen besonders wirksam ist, um übertragbare räumliche Intelligenz zu entwickeln:
Diese Erkenntnisse deuten darauf hin, dass eine gezielte Auswahl von Trainingsdaten, die diese spezifischen kognitiven Fähigkeiten adressieren, effizienter sein kann als ein breiter, unspezifischer Ansatz.
Die Ergebnisse der Studie sind vielversprechend: Ein Video-LLM mit 7 Milliarden Parametern, das mit nur 25.000 simulierten Beispielen feinabgestimmt wurde, übertraf ein größeres 72B-Baseline-Modell und erreichte vergleichbare Leistungen mit proprietären Modellen auf anspruchsvollen realen Benchmarks für räumliches Denken. Dies demonstriert die Effizienz des SIMS-V-Ansatzes und die robuste Generalisierungsfähigkeit der trainierten Modelle. Die Modelle zeigten nicht nur erhebliche Verbesserungen bei spezifischen räumlichen Aufgaben, sondern behielten auch ihre Leistung im allgemeinen Videoverständnis bei. Insbesondere bei Aufgaben zur Routenplanung in längeren Videos konnten signifikante Fortschritte erzielt werden, was die Relevanz für Anwendungen in der Robotik und verkörperter KI unterstreicht.
Diese Forschung liefert wichtige Einblicke in die Verbesserung der räumlichen Denkfähigkeiten von MLMs. Die Möglichkeit, hochwertige, vielfältige und präzise annotierte Trainingsdaten kostengünstig durch Simulationen zu generieren, kann einen Engpass in der Entwicklung robusterer und intelligenterer KI-Systeme beseitigen. Die Konzentration auf gezielt ausgewählte Fragetypen ermöglicht zudem ein effizienteres Training und eine bessere Übertragbarkeit der gelernten Fähigkeiten auf reale Anwendungen. Zukünftige Arbeiten könnten die Interaktionseigenschaften der simulierten Szenen nutzen, um Kausalzusammenhänge und kettenbasiertes Denken weiter zu erforschen und so den Übergang von passiver Wahrnehmung zu aktiver Interaktion in MLMs zu erleichtern.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen