Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Als Senior Specialist Journalist und Analyst für Mindverse ist es unsere Aufgabe, komplexe technologische Entwicklungen präzise und objektiv für unsere B2B-Zielgruppe aufzubereiten. Die kontinuierliche Weiterentwicklung von Künstlicher Intelligenz, insbesondere im Bereich der multimodalen Modelle, eröffnet neue Horizonte für Anwendungen in der Robotik, dem autonomen Fahren und der erweiterten Realität. Eine aktuelle Arbeit, die in diesem Kontext besondere Beachtung verdient, ist das Framework "Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training". Dieses Framework befasst sich mit der Herausforderung, wie KI-Modelle räumliche Informationen effizient und kontinuierlich aus Videostreams verarbeiten und verstehen können.
Die menschliche Wahrnehmung der realen Welt erfolgt durch einen kontinuierlichen Strom visueller Beobachtungen. Für Künstliche Intelligenz ist die Fähigkeit, räumliche Beweise aus potenziell unbegrenzten Videostreams kontinuierlich zu pflegen und zu aktualisieren, von entscheidender Bedeutung für die räumliche Intelligenz. Die zentrale Schwierigkeit hierbei liegt nicht primär in der Bereitstellung längerer Kontextfenster, sondern vielmehr in der selektiven Auswahl, Organisation und Beibehaltung räumlicher Informationen über einen längeren Zeitraum hinweg. Aktuelle Multimodale Große Sprachmodelle (MLLMs) zeigen zwar beeindruckende Leistungen in der 2D-Bildverarbeitung, stoßen jedoch an ihre Grenzen, wenn präzises 3D-räumliches Verständnis erforderlich ist. Dies liegt häufig an einem Mangel an 3D-geometrischen Vorwissen, da diese Modelle überwiegend mit 2D-Bild-Text-Paaren trainiert werden und die Supervision räumlicher Strukturen fehlt.
Die naive Ausweitung der Eingabesequenzen führt zu prohibitiven Rechenkosten aufgrund der quadratischen Komplexität von Aufmerksamkeitsmechanismen. Gleichzeitig führt eine zu aggressive zeitliche Subsampling-Strategie unweigerlich zum Verlust feinkörniger räumlicher Details, die für ein genaues 3D-Reasoning unerlässlich sind.
Um diesen Herausforderungen zu begegnen, wurde Spatial-TTT vorgestellt. Es handelt sich um ein Framework, das auf dem Prinzip des Test-Time Training (TTT) basiert. Im Gegensatz zu herkömmlichen Modellen, die feste Parameter für die Inferenz verwenden, passt Spatial-TTT einen Teil seiner Parameter – die sogenannten "Fast Weights" – während der Testphase an. Diese adaptiven Gewichte fungieren als kompakter, nicht-linearer Speicher, der 3D-Informationen aus langen Videoszenen kontinuierlich akkumuliert und organisiert.
Das Design von Spatial-TTT umfasst mehrere Schlüsselelemente:
Ein weiterer wichtiger Aspekt von Spatial-TTT ist die Konstruktion eines neuen Datensatzes. Bestehende räumliche Datensätze liefern oft spärliche und lokale Supervision, was die effektive Aktualisierung der "Fast Weights" erschwert. Das Spatial-TTT-Team hat daher einen Datensatz mit dichten 3D-Szenenbeschreibungen erstellt. Dieser Datensatz leitet das Modell an, seine "Fast Weights" so zu aktualisieren, dass globale 3D-Raumsignale strukturiert gespeichert und organisiert werden. Die Beschreibungen umfassen globalen Kontext, Objekte und deren Anzahl sowie räumliche Beziehungen, was eine reichhaltige Supervision für die Trainingsdynamik der "Fast Weights" bietet.
Das Training erfolgt in zwei Stufen: Zuerst werden die "Fast Weights" mit dem dichten Szenenbeschreibungsdatensatz initialisiert, um ein globales 3D-Bewusstsein zu entwickeln. Anschließend wird das Modell mit einem großen Datensatz von räumlichen Video-Frage-Antworten (VQA) feinabgestimmt, um die Fähigkeit zum Streaming-basierten räumlichen Reasoning zu verbessern.
Umfassende Experimente auf verschiedenen Benchmarks für videobasierte räumliche Intelligenz, wie VSI-Bench und MindCube-Tiny, zeigen, dass Spatial-TTT eine überlegene Leistung erzielt. Es übertrifft sowohl proprietäre als auch Open-Source-Baselines, selbst bei einer kompakten Modellgröße. Im VSI-Bench erreicht Spatial-TTT-2B eine durchschnittliche Genauigkeit von 64,4 %, was deutlich höher ist als die Leistung von Modellen wie GPT-5 (55,0 %) oder Gemini-3-Pro (56,0 %). Besonders hervorzuheben sind die Verbesserungen bei Aufgaben, die komplexes räumliches Reasoning erfordern, wie die Bestimmung relativer Richtungen oder die Routenplanung.
Ein entscheidender Vorteil von Spatial-TTT liegt in seiner Skalierbarkeit und Effizienz. Während andere Modelle bei länger werdenden Videos an Speichergrenzen stoßen oder quadratische Rechenkosten aufweisen, skaliert Spatial-TTT nahezu linear mit der Eingabelänge. Bei 1024 Frames konnte Spatial-TTT beispielsweise eine Reduzierung der TFLOPs und des Speicherbedarfs um über 40 % im Vergleich zu Qwen3-VL-2B erreichen. Diese Effizienz macht das Framework besonders geeignet für Anwendungen, die eine kontinuierliche Verarbeitung langer Videostreams erfordern.
Spatial-TTT stellt einen signifikanten Fortschritt im Bereich der räumlichen Intelligenz für MLLMs dar. Durch die geschickte Kombination von Test-Time Training, einer hybriden Architektur, einem räumlich-prädiktiven Mechanismus und einem dichten Szenenbeschreibungsdatensatz gelingt es, die Herausforderungen der Verarbeitung unbegrenzter Videostreams zu meistern. Die Fähigkeit, adaptive "Fast Weights" als effizienten 3D-Speicher zu nutzen, ermöglicht ein robustes und skalierbares räumliches Verständnis, das für zukünftige KI-Anwendungen in der realen Welt von großer Bedeutung sein wird. Die erzielten Leistungsverbesserungen und die nachgewiesene Effizienz positionieren Spatial-TTT als vielversprechende Richtung für die Entwicklung von MLLMs mit persistentem räumlichem Gedächtnis.
Bibliography: - Liu, F., Wu, D., Chi, J., Cai, Y., Hung, Y.-H., Yu, X., Li, H., Hu, H., Rao, Y., & Duan, Y. (2026). Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training. arXiv preprint arXiv:2603.12255. - THU-SI/Spatial-TTT GitHub Repository. (2026). Streaming Visual-based Spatial Intelligence with Test-Time Training. https://github.com/THU-SI/Spatial-TTT - AI Research Roundup. (2026, March 13). Spatial-TTT: Streaming 3D Memory for Video MLLMs (Video). YouTube. https://www.youtube.com/watch?v=bGTX8xJNlPI - alphaXiv. (2026). Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training. https://www.alphaxiv.org/resources/2603.12255 - Wang, R., Sun, Y., Tandon, A., Gandelsman, Y., Chen, X., Efros, A. A., & Wang, X. (2025). Test-Time Training on Video Streams. arXiv preprint arXiv:2307.05014.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen