Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Fähigkeit von Robotern, komplexe Anweisungen zu verstehen und präzise in der physischen Welt umzusetzen, ist ein zentrales Forschungsfeld der Künstlichen Intelligenz. Vision-Language-Action (VLA)-Modelle stellen hierbei einen vielversprechenden Ansatz dar, indem sie visuelle Wahrnehmung, Sprachverständnis und Aktionsgenerierung in einem kohärenten Rahmen vereinen. Traditionelle VLA-Modelle, die primär auf 2D-Bilddaten basieren, stoßen jedoch oft an ihre Grenzen, wenn es um ein akkurates räumliches Verständnis in einer dreidimensionalen Umgebung geht. Eine neue Entwicklung namens "Spatial Forcing" (SF) bietet hier eine innovative Lösung, indem sie das implizite räumliche Bewusstsein von VLA-Modellen signifikant verstärkt.
VLA-Modelle werden typischerweise durch das Fine-Tuning von vortrainierten Vision-Language-Modellen (VLMs) mit Robotermanipulationsdaten entwickelt. Diese VLMs zeichnen sich durch ein starkes semantisches Verständnis aus, das sie aus der Vorab-Schulung mit großen Mengen von Bild-Text-Paaren ableiten. Dieses Training konzentriert sich jedoch hauptsächlich auf 2D-Informationen, was zu einem Mangel an präzisem 3D-Raumverständnis führt. Die Konsequenz ist, dass diese Modelle Schwierigkeiten haben, geometrische und räumliche Beziehungen in der physischen Welt akkurat zu erfassen, was für viele komplexe Manipulationsaufgaben unerlässlich ist. Frühere Ansätze versuchten, diese Lücke durch explizite 3D-Eingaben wie Tiefenkarten oder Punktwolken zu schließen. Diese Methoden bringen jedoch eigene Herausforderungen mit sich, darunter Sensorrauschen, Hardware-Inkompatibilität und unvollständige Tiefenabdeckung in bestehenden Datensätzen. Zudem ist die Leistung von Tiefenschätzern aus 2D-Bildern oft begrenzt.
Das Konzept des "Spatial Forcing" (SF) adressiert diese Limitationen durch eine neuartige, implizite Ausrichtungsstrategie. Anstatt auf explizite 3D-Sensoreingaben oder aufwendige Tiefenschätzung zu setzen, zwingt SF VLA-Modelle dazu, räumliche Kompetenzen zu entwickeln, indem es ihre internen visuellen Embeddings mit geometrischen Repräsentationen von vortrainierten 3D-Grundlagenmodellen abgleicht. Dies geschieht auf den Zwischenschichten der VLA-Modelle, wodurch eine reichhaltigere und präzisere räumliche Repräsentation erzwungen wird, die die Aktionsgenauigkeit erheblich verbessert.
Die Architektur von SF baut auf bestehenden VLA-Modellen, wie beispielsweise π0, auf. Es integriert einen räumlichen Encoder, der von einem Visual Geometry Grounded Transformer (VGGT) abgeleitet wird. VGGT-Modelle sind darauf trainiert, 3D-Strukturinformationen aus 2D-Bildeingaben zu rekonstruieren, indem sie räumliche Merkmale aus mehreren Ansichten fusionieren. Diese 3D-Tokens, die aus der letzten Schicht des VGGT extrahiert werden, erfassen tiefe geometrische Repräsentationen, einschließlich tiefenbewusster Kontexte, zeitlich konsistenter Objekttrajektorien und räumlicher Korrespondenzen über verschiedene Ansichten hinweg.
Die Integration der VGGT-abgeleiteten Merkmale in die Vision-Language-Pipeline erfolgt über ein leichtgewichtiges Fuser-Modul, das Embeddings aus dem Vision Transformer und dem VGGT-Encoder kombiniert. Hierbei dient eine einzige Cross-Attention-Schicht dazu, 2D-Visual-Tokens als Queries und die VGGT-Tokens als Keys und Values zu verwenden. Um die Recheneffizienz zu gewährleisten und die Störung des vortrainierten VLM-Backbones zu minimieren, werden die Kern-VLM-Parameter eingefroren. Stattdessen werden leichte Low-Rank Adaptation (LoRA)-Schichten sowie der Fuser und der Flow-Matching-Aktionsexperte feinabgestimmt. Dies ermöglicht eine effektive Anpassung bei minimalem Overhead.
Diese Methode führt zu einer erheblichen Beschleunigung des Trainings um bis zu 3,8x und verbessert die Dateneffizienz bei einer Vielzahl von Robotikaufgaben. Dies ist besonders relevant in Szenarien, in denen die Beschaffung großer Mengen an qualitativ hochwertigen 3D-Daten kostspielig oder technisch anspruchsvoll ist.
Umfassende Experimente in simulierten und realen Umgebungen demonstrieren, dass SF herausragende Ergebnisse erzielt und sowohl 2D- als auch 3D-basierte VLA-Modelle übertrifft. Die Evaluierung umfasst Aufgaben, die ein hohes Maß an räumlicher Präzision erfordern, wie das präzise Zentrieren eines Zylinders auf einem Ziel, das Einführen eines Stifts in ein Loch, das Greifen der mittleren Flasche in einer Reihe und das Greifen und Platzieren transparenter Objekte. Insbesondere bei Aufgaben, die eine geringe Fehlertoleranz aufweisen, wie das Einstecken eines Stifts in ein Loch, zeigte das SF-Modell die größten Leistungssteigerungen. Auch bei der Interaktion mit transparenten Objekten, die für RGB-Sensoren oft problematisch sind, zeigte SF deutliche Verbesserungen.
Die quantitativen Ergebnisse belegen, dass die impliziten 3D-Geometriemerkmale einen positiven Beitrag zur Aufgabenleistung leisten. Qualitative Analysen der Aufgabenausführungen unterstreichen das verbesserte räumliche Bewusstsein und die Manipulationspräzision des Modells. Beispielsweise gelang es dem SF-Modell, Zylinder zuverlässig zu greifen und präzise zu platzieren, während das Baseline-Modell ohne SF oft bereits beim ersten Greifversuch scheiterte.
Die Einführung von "Spatial Forcing" stellt einen wichtigen Schritt in der Entwicklung von VLA-Modellen dar. Durch die implizite Integration von 3D-Geometriepriors aus vortrainierten Visual Geometry Grounded Transformern können VLA-Systeme ein präziseres räumliches Verständnis entwickeln, ohne auf teure zusätzliche Sensoren oder fehleranfällige Tiefenschätzungen angewiesen zu sein. Diese Methode vereinfacht die Entwicklung und den Einsatz von Robotern in komplexen physischen Umgebungen und ebnet den Weg für robustere und anpassungsfähigere Robotik-Anwendungen.
Für Unternehmen im B2B-Sektor, die auf fortschrittliche KI-Lösungen angewiesen sind, bedeutet dies die Möglichkeit, Roboter mit einer bisher unerreichten Präzision und Effizienz für Aufgaben in der Fertigung, Logistik und anderen Bereichen einzusetzen. Die beschleunigten Trainingszeiten und die verbesserte Dateneffizienz tragen zudem dazu bei, die Entwicklungskosten zu senken und die Skalierbarkeit von Robotik-Lösungen zu erhöhen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen