Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Fähigkeit, räumliche Beziehungen aus visuellen Eingaben zu erfassen, ist ein Grundstein menschenähnlicher allgemeiner Intelligenz. Im Bereich der Künstlichen Intelligenz, insbesondere bei Vision-Language Models (VLMs), stellt dies eine zentrale Herausforderung dar. Traditionelle Ansätze zur Verbesserung des räumlichen Bewusstseins in VLMs umfassten oft die Integration zusätzlicher spezialisierter Encoder, was jedoch zu zusätzlichem Overhead führen und die allgemeinen Fähigkeiten der Modelle beeinträchtigen konnte. Ein neuer Forschungsansatz, bekannt als Visual Spatial Tuning (VST), bietet nun einen umfassenden Rahmen, um VLMs mit menschenähnlichen visuell-räumlichen Fähigkeiten auszustatten, die von der reinen Wahrnehmung bis zur komplexen Schlussfolgerung reichen.
VST strukturiert die räumliche Intelligenz in zwei Hauptkomponenten: die räumliche Wahrnehmung und die räumliche Schlussfolgerung. Räumliche Wahrnehmung wird als die Fähigkeit definiert, die räumlichen Beziehungen zwischen Objekten zu erkennen. Dies umfasst grundlegende Kenntnisse darüber, "was ist es?" und "wo ist es?". Aktuelle VLMs können Objekte erkennen und im Pixelraum lokalisieren, ihre Fähigkeit zur Bestimmung von Objektpositionen im 3D-Raum ist jedoch oft begrenzt.
Die räumliche Schlussfolgerung hingegen geht über die direkte Wahrnehmung hinaus und beschreibt die Fähigkeit, ein internes Modell einer Umgebung mental zu konstruieren und zu manipulieren. Dies erfordert ein tieferes Verständnis von Zusammenhängen und die Fähigkeit, logische Schlüsse über räumliche Anordnungen zu ziehen, selbst wenn nur begrenzte Ansichten verfügbar sind.
Um die räumliche Wahrnehmung in VLMs zu stärken, wurde der umfangreiche Datensatz VST-Perception (VST-P) entwickelt. Dieser Datensatz umfasst 4,1 Millionen Proben, die 19 verschiedene Fähigkeiten in Einzelbildern, Mehrfachbildern und Videos abdecken. Die Daten sind wie folgt aufgeteilt:
Über die grundlegende Wahrnehmung hinaus wurde der VST-Reasoning (VST-R) Datensatz mit 135.000 Proben entwickelt, um die räumliche Schlussfolgerungsfähigkeit zu schulen. Dieser Datensatz enthält zwei Hauptbestandteile:
Ein besonderes Designmerkmal im VST-R Datensatz ist die Verwendung von Bird's-Eye View (BEV) Annotationen. Diese nutzen eine Draufsicht, um räumliche Beziehungen explizit darzustellen und so die Qualität der generierten Layoutbeschreibungen und CoT-Schlussfolgerungsprozesse zu verbessern, insbesondere bei komplexen Multi-View-Szenarien.
Das VST-Framework verwendet eine dreistufige progressive Trainingspipeline, die den menschlichen Erwerb räumlicher Intelligenz nachahmt:
Die experimentellen Ergebnisse zeigen, dass VST-Modelle bei räumlichen Benchmarks wie MMSI-Bench und VSIBench eine überlegene Leistung erzielen und gleichzeitig ihre allgemeinen multimodalen Fähigkeiten beibehalten. Insbesondere bei der 3D-Objekterkennung auf Datensätzen wie SUN RGB-D erreichen VST-Modelle Spitzenwerte, selbst ohne spezialisierte 3D-Encoder. Dies unterstreicht, dass eine reine visuell-räumliche Abstimmung zu robusten Ergebnissen führen kann.
Ein weiterer wichtiger Aspekt ist die Anwendung von VST auf Vision-Language-Action (VLA)-Modelle. Die Integration des durch VST erworbenen räumlichen Wissens führt zu einer signifikanten Leistungssteigerung bei Robotik-Manipulationsaufgaben. Beispielsweise konnte ein VLA-Modell, das auf einem VST-getunten Modell basiert, eine um 8,6 % höhere Erfolgsrate beim LIBERO-Benchmark erzielen. Dies zeigt, dass VST den Weg für eine stärker physisch geerdete KI ebnet, die in der Lage ist, die reale Welt präziser zu verstehen und mit ihr zu interagieren.
Umfassende Ablationsstudien belegen den Beitrag jeder einzelnen Komponente des VST-Frameworks:
Visual Spatial Tuning (VST) stellt einen entscheidenden Fortschritt in der Entwicklung intelligenter Systeme dar, die visuell-räumliche Informationen auf menschenähnliche Weise verarbeiten. Durch die Kombination von umfangreichen Datensätzen, einem progressiven Trainingsansatz und innovativen Techniken wie der FoV-Vereinheitlichung und BEV-Annotationen ermöglicht VST VLMs, komplexe räumliche Beziehungen nicht nur wahrzunehmen, sondern auch darüber zu schlussfolgern. Die nachweislichen Verbesserungen in der räumlichen Wahrnehmung und Schlussfolgerung sowie die positive Auswirkung auf VLA-Modelle unterstreichen das Potenzial von VST, eine neue Generation von KI-Systemen zu schaffen, die in der physischen Welt intelligenter agieren und interagieren können.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen