Fortschritte in der räumlichen Intelligenz durch die SenseNova-SI Modellfamilie

Kategorien:

No items found.

Freigegeben:

November 22, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

SenseTime hat die SenseNova-SI Modellfamilie veröffentlicht, die auf multimodalen Fundamentmodellen basiert und eine verbesserte räumliche Intelligenz aufweist.
Die Modelle wurden mit einem umfangreichen Datensatz von 8 Millionen Proben trainiert, um räumliche Fähigkeiten zu kultivieren.
SenseNova-SI erzielt in Benchmarks wie MindCube (85,6 %) und VSI-Bench (68,7 %) überdurchschnittliche Leistungen und übertrifft in einigen Aspekten proprietäre Modelle wie GPT-5 und Gemini 2.5 Pro.
Die Modelle sind als Open-Source verfügbar, um die Forschung und Entwicklung in diesem Bereich zu fördern.
Die Forschung hebt die Bedeutung von Daten-Skalierung und diversifiziertem Training für die Entwicklung räumlicher Intelligenz hervor.

SenseNova-SI: Ein Fortschritt in der räumlichen KI-Intelligenz

Die Entwicklung künstlicher Intelligenz schreitet kontinuierlich voran, wobei multimodale Modelle zunehmend in der Lage sind, komplexe Aufgaben zu bewältigen. Ein Bereich, in dem traditionelle Modelle oft Defizite aufweisen, ist die räumliche Intelligenz. Hier setzt die kürzlich von SenseTime vorgestellte SenseNova-SI Modellfamilie an, die darauf abzielt, diese Lücke zu schließen und neue Maßstäbe im Verständnis und der Interaktion mit der dreidimensionalen Welt zu setzen.

Grundlagen und Zielsetzung der SenseNova-SI Modelle

Die SenseNova-SI-Serie basiert auf etablierten multimodalen Fundamentmodellen, darunter visuelle Verständnismodelle wie Qwen3-VL und InternVL3 sowie Modelle für einheitliches Verständnis und Generierung wie Bagel. Das Kernziel der Entwicklung war es, multimodale Fundamentmodelle so zu skalieren, dass sie eine robuste und leistungsstarke räumliche Intelligenz entwickeln können. Dies wurde durch einen systematischen Ansatz erreicht, bei dem ein umfangreicher Datensatz namens SenseNova-SI-8M erstellt wurde. Dieser Datensatz umfasst acht Millionen diverse Datenproben, die unter einer präzisen Taxonomie räumlicher Fähigkeiten kuratiert wurden.

Architektur und Trainingsansatz

Die SenseNova-SI Familie besteht aus vier Varianten, die jeweils auf unterschiedlichen Backbone-Architekturen basieren. Dazu gehören:

Bagel-7B-MoT: Eine 7 Milliarden Parameter umfassende Encoder-Decoder-Architektur, die visuelle Frames und Text-Token gemeinsam modellieren kann.
Qwen3-VL-8B: Ein 8 Milliarden Parameter umfassendes Modell, das von einem großen LLM mit einem Vision-Projektionsmodul für das visuell-sprachliche Verständnis erweitert wurde.
InternVL3-2B und InternVL3-8B: Architekturen mit 2 bzw. 8 Milliarden Parametern, die über duale visuelle Encoder verfügen, welche mit einem einheitlichen multimodalen Transformer verbunden sind.

Ein wesentlicher Aspekt des Trainingsregimes ist die Verwendung von Multi-Task-Supervised Fine-Tuning über eine Epoche hinweg auf dem SenseNova-SI-8M Korpus. Dabei wurde der AdamW-Optimierer mit einer Lernrate von 5×10−6 und einer Batch-Größe von 2048 auf 128 GPUs eingesetzt. Um Überanpassung zu vermeiden und das Vergessen von Kern-2D-Fähigkeiten zu mildern, wurde eine Einbeziehung von 0,6 Millionen allgemeinen QA-Beispielen als "Rehearsal" implementiert.

Herausragende Benchmark-Ergebnisse

Die SenseNova-SI Modelle haben in einer Reihe von räumlichen Intelligenz-Benchmarks bemerkenswerte Leistungen erzielt und dabei neue Open-Source-Rekorde aufgestellt. Insbesondere die Variante SenseNova-SI-1.1-InternVL3-8B zeigte beeindruckende Ergebnisse:

VSI-Bench: 68,7 %
MMSI: 43,3 %
MindCube: 85,6 %
ViewSpatial: 54,6 %
SITE: 47,7 %

Diese Werte übertreffen nicht nur vergleichbare Open-Source-Modelle, sondern in einigen Kategorien auch proprietäre Modelle wie GPT-5 und Gemini 2.5 Pro. Beispielsweise erreichte SenseNova-SI-1.1-InternVL3-8B auf MindCube-Tiny einen Wert von 85,6 %, während GPT-5 bei 56,3 % und Gemini-2.5-pro bei 57,6 % lagen.

Die Bedeutung von Daten-Skalierung und Generalisierungsfähigkeiten

Die Forschung hinter SenseNova-SI betont die signifikante Auswirkung der Daten-Skalierung auf die Leistungsfähigkeit der Modelle. Es wurde festgestellt, dass die Leistung rapide ansteigt, wenn die Trainingsdaten von 1 Million auf 8 Millionen räumliche QA-Proben skaliert werden, und sich einem logarithmischen Plateau bei etwa 6 Millionen nähert. Dies deutet auf eine Skalierungsgesetzmäßigkeit hin, bei der die Leistung des Modells mit der Menge der Trainingsdaten in logarithmischer Weise zunimmt.

Ein weiteres wichtiges Ergebnis ist die Beobachtung von emergenten Generalisierungsfähigkeiten. Das Fine-Tuning auf bestimmten 3D-Ansichtstransformations-QA-Subsets führte zu unerwarteten Transfergewinnen auf verwandte, aber ungesehene Aufgaben wie Labyrinth-Pfadfindung. Dies legt nahe, dass die Skalierung und Diversität räumlicher Daten nicht nur die direkte QA-Leistung verbessert, sondern auch eine domänenübergreifende Übertragung und Robustheit gegenüber der Anzahl der Frames ermöglicht, die über die Trainingsverteilung hinausgeht.

Robustheit und Debiasierung

Die Analyse der Robustheit der Modelle zeigte, dass SenseNova-SI eine geringere Abhängigkeit von linguistischen Abkürzungen aufweist und stattdessen stärker auf visuelle Signale setzt. Bei Tests zur Debiasierung auf VSI-Debiased fiel die Leistung der SenseNova-SI-Modelle im Vergleich zu anderen Modellen weniger stark ab. Auch bei der "Hard Circular" Neuetikettierung auf MindCube zeigte InternVL3-8B eine begrenzte Abhängigkeit von oberflächlichen Textheuristiken.

Eine weitere Validierung der visuellen Verankerung erfolgte durch die Entfernung von Bildern aus den MindCube-QA-Tests. Während die meisten Modelle auf ein Zufallsniveau sanken, behielt SenseNova-SI eine Leistung von 52,5 % bei, was die echte visuelle Erdung des Modells untermauert.

Anwendungen und zukünftige Richtungen

Die verbesserten räumlichen Intelligenzfähigkeiten der SenseNova-SI Modelle eröffnen vielversprechende Anwendungsmöglichkeiten. Insbesondere im Bereich der verkörperten Manipulation (Embodied Manipulation) konnte eine signifikante Verbesserung der Erfolgsraten festgestellt werden, selbst ohne weiteres Fine-Tuning. Dies ist relevant für Anwendungen in der Robotik und autonomen Systemen, die eine präzise Interaktion mit ihrer Umgebung erfordern.

SenseTime hat alle vier Modellgewichte und den vollständigen SenseNova-SI-8M Datensatz auf HuggingFace öffentlich zugänglich gemacht. Diese Open-Source-Veröffentlichung soll die Forschungsgemeinschaft dazu ermutigen, die Modelle weiter zu untersuchen und zu verbessern. Zukünftige Forschungsrichtungen umfassen die Integration von 3D-Experten-Encodern, die Entwicklung räumlich strukturierter latenter Module und die Einbeziehung von grafikbasierten oder neuronalen räumlichen Simulatoren zur Unterstützung umfassenderer "Chain-of-Thought"-Begründungen in 3D. Auch die Erweiterung auf räumliche Planung auf Videoebene und breitere multimodale Selbstüberwachung in verkörperten Umgebungen sind vorgesehene Schritte.

Die aktuellen Erkenntnisse legen nahe, dass zukünftige Modelle für räumliche Intelligenz möglicherweise grundlegende Änderungen in der Architektur oder den Denkparadigmen erfordern werden, da der derzeitige datengesteuerte Ansatz zwar deutliche Verbesserungen liefert, aber auch Sättigungspunkte und die Grenzen aktueller "Chain-of-Thought"-Strategien aufzeigt.

Bibliography

- Cai, Z., Wang, R., Gu, C., Pu, F., Xu, J., Wang, Y., ... & Yang, L. (2025). Scaling Spatial Intelligence with Multimodal Foundation Models. *arXiv preprint arXiv:2511.13719*. - OpenSenseNova. (2025). *OpenSenseNova/SenseNova-SI: Scaling Spatial Intelligence with Multimodal Foundation Models*. GitHub. Verfügbar unter: https://github.com/OpenSenseNova/SenseNova-SI - Dutta, A. (2025). *This AI Model Can Outperform GPT-5, Gemini 2.5 Pro in Spatial Intelligence*. Gadgets 360. Verfügbar unter: https://www.gadgets360.com/ai/news/sensetime-sensenova-si-open-source-ai-model-outperforms-chatgpt-gpt-5-gemini-2-5-pro-spatial-intelligence-9614833 - AIbase. (2025). *SenseNova-SI Model Released by SenseTime, Spatial Intelligence Performance Exceeds GPT-5*. AIbase News. Verfügbar unter: https://www.aibase.com/news/22681 - Emergent Mind. (2025). *SenseNova-SI Family in Spatial Intelligence*. Verfügbar unter: https://www.emergentmind.com/topics/sensenova-si-family