Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Entwicklung künstlicher Intelligenz schreitet kontinuierlich voran, wobei multimodale Modelle zunehmend in der Lage sind, komplexe Aufgaben zu bewältigen. Ein Bereich, in dem traditionelle Modelle oft Defizite aufweisen, ist die räumliche Intelligenz. Hier setzt die kürzlich von SenseTime vorgestellte SenseNova-SI Modellfamilie an, die darauf abzielt, diese Lücke zu schließen und neue Maßstäbe im Verständnis und der Interaktion mit der dreidimensionalen Welt zu setzen.
Die SenseNova-SI-Serie basiert auf etablierten multimodalen Fundamentmodellen, darunter visuelle Verständnismodelle wie Qwen3-VL und InternVL3 sowie Modelle für einheitliches Verständnis und Generierung wie Bagel. Das Kernziel der Entwicklung war es, multimodale Fundamentmodelle so zu skalieren, dass sie eine robuste und leistungsstarke räumliche Intelligenz entwickeln können. Dies wurde durch einen systematischen Ansatz erreicht, bei dem ein umfangreicher Datensatz namens SenseNova-SI-8M erstellt wurde. Dieser Datensatz umfasst acht Millionen diverse Datenproben, die unter einer präzisen Taxonomie räumlicher Fähigkeiten kuratiert wurden.
Die SenseNova-SI Familie besteht aus vier Varianten, die jeweils auf unterschiedlichen Backbone-Architekturen basieren. Dazu gehören:
Ein wesentlicher Aspekt des Trainingsregimes ist die Verwendung von Multi-Task-Supervised Fine-Tuning über eine Epoche hinweg auf dem SenseNova-SI-8M Korpus. Dabei wurde der AdamW-Optimierer mit einer Lernrate von 5×10−6 und einer Batch-Größe von 2048 auf 128 GPUs eingesetzt. Um Überanpassung zu vermeiden und das Vergessen von Kern-2D-Fähigkeiten zu mildern, wurde eine Einbeziehung von 0,6 Millionen allgemeinen QA-Beispielen als "Rehearsal" implementiert.
Die SenseNova-SI Modelle haben in einer Reihe von räumlichen Intelligenz-Benchmarks bemerkenswerte Leistungen erzielt und dabei neue Open-Source-Rekorde aufgestellt. Insbesondere die Variante SenseNova-SI-1.1-InternVL3-8B zeigte beeindruckende Ergebnisse:
Diese Werte übertreffen nicht nur vergleichbare Open-Source-Modelle, sondern in einigen Kategorien auch proprietäre Modelle wie GPT-5 und Gemini 2.5 Pro. Beispielsweise erreichte SenseNova-SI-1.1-InternVL3-8B auf MindCube-Tiny einen Wert von 85,6 %, während GPT-5 bei 56,3 % und Gemini-2.5-pro bei 57,6 % lagen.
Die Forschung hinter SenseNova-SI betont die signifikante Auswirkung der Daten-Skalierung auf die Leistungsfähigkeit der Modelle. Es wurde festgestellt, dass die Leistung rapide ansteigt, wenn die Trainingsdaten von 1 Million auf 8 Millionen räumliche QA-Proben skaliert werden, und sich einem logarithmischen Plateau bei etwa 6 Millionen nähert. Dies deutet auf eine Skalierungsgesetzmäßigkeit hin, bei der die Leistung des Modells mit der Menge der Trainingsdaten in logarithmischer Weise zunimmt.
Ein weiteres wichtiges Ergebnis ist die Beobachtung von emergenten Generalisierungsfähigkeiten. Das Fine-Tuning auf bestimmten 3D-Ansichtstransformations-QA-Subsets führte zu unerwarteten Transfergewinnen auf verwandte, aber ungesehene Aufgaben wie Labyrinth-Pfadfindung. Dies legt nahe, dass die Skalierung und Diversität räumlicher Daten nicht nur die direkte QA-Leistung verbessert, sondern auch eine domänenübergreifende Übertragung und Robustheit gegenüber der Anzahl der Frames ermöglicht, die über die Trainingsverteilung hinausgeht.
Die Analyse der Robustheit der Modelle zeigte, dass SenseNova-SI eine geringere Abhängigkeit von linguistischen Abkürzungen aufweist und stattdessen stärker auf visuelle Signale setzt. Bei Tests zur Debiasierung auf VSI-Debiased fiel die Leistung der SenseNova-SI-Modelle im Vergleich zu anderen Modellen weniger stark ab. Auch bei der "Hard Circular" Neuetikettierung auf MindCube zeigte InternVL3-8B eine begrenzte Abhängigkeit von oberflächlichen Textheuristiken.
Eine weitere Validierung der visuellen Verankerung erfolgte durch die Entfernung von Bildern aus den MindCube-QA-Tests. Während die meisten Modelle auf ein Zufallsniveau sanken, behielt SenseNova-SI eine Leistung von 52,5 % bei, was die echte visuelle Erdung des Modells untermauert.
Die verbesserten räumlichen Intelligenzfähigkeiten der SenseNova-SI Modelle eröffnen vielversprechende Anwendungsmöglichkeiten. Insbesondere im Bereich der verkörperten Manipulation (Embodied Manipulation) konnte eine signifikante Verbesserung der Erfolgsraten festgestellt werden, selbst ohne weiteres Fine-Tuning. Dies ist relevant für Anwendungen in der Robotik und autonomen Systemen, die eine präzise Interaktion mit ihrer Umgebung erfordern.
SenseTime hat alle vier Modellgewichte und den vollständigen SenseNova-SI-8M Datensatz auf HuggingFace öffentlich zugänglich gemacht. Diese Open-Source-Veröffentlichung soll die Forschungsgemeinschaft dazu ermutigen, die Modelle weiter zu untersuchen und zu verbessern. Zukünftige Forschungsrichtungen umfassen die Integration von 3D-Experten-Encodern, die Entwicklung räumlich strukturierter latenter Module und die Einbeziehung von grafikbasierten oder neuronalen räumlichen Simulatoren zur Unterstützung umfassenderer "Chain-of-Thought"-Begründungen in 3D. Auch die Erweiterung auf räumliche Planung auf Videoebene und breitere multimodale Selbstüberwachung in verkörperten Umgebungen sind vorgesehene Schritte.
Die aktuellen Erkenntnisse legen nahe, dass zukünftige Modelle für räumliche Intelligenz möglicherweise grundlegende Änderungen in der Architektur oder den Denkparadigmen erfordern werden, da der derzeitige datengesteuerte Ansatz zwar deutliche Verbesserungen liefert, aber auch Sättigungspunkte und die Grenzen aktueller "Chain-of-Thought"-Strategien aufzeigt.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen