Geometric Action Model: Fortschritte in der Robotersteuerung durch 3D-Geometrie

Kategorien:

No items found.

Freigegeben:

June 17, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Das Geometric Action Model (GAM) integriert ein vortrainiertes Geometrisches Grundlagenmodell (GFM) als zentrale Komponente für die Robotersteuerung.
GAM adressiert die Defizite traditioneller Vision-Language-Action (VLA)-Modelle, die oft auf 2D-Bilddaten basieren und 3D-Geometrie implizit behandeln.
Das Modell erreicht eine hohe Leistung von 85,5 % auf LIBERO-Plus und ist dabei 55-mal schneller als vergleichbare Baselines.
Mit 1,4 Milliarden Parametern und einer Inferenzzeit von 6,9 ms demonstriert GAM Effizienz und Skalierbarkeit für komplexe Robotikaufgaben.
Die explizite Berücksichtigung von 3D-Geometrie durch GAM ermöglicht eine präzisere und robustere Manipulation in realen Umgebungen.

Die Entwicklung intelligenter Robotersysteme, die in komplexen physischen Umgebungen agieren können, stellt eine zentrale Herausforderung in der aktuellen Forschung dar. Ein entscheidender Aspekt hierbei ist die Fähigkeit von Robotern, Benutzeranweisungen zu interpretieren und dabei präzise zu verstehen, wie Objekte, Kameras und Roboteraktionen in der 3D-Welt interagieren. Traditionelle Ansätze, insbesondere Vision-Language-Action (VLA)-Modelle, haben hierbei oft Schwierigkeiten, da sie primär auf 2D-Bilddaten oder daraus abgeleiteten latenten Räumen operieren und die für eine präzise Manipulation notwendige 3D-Geometrie nur implizit berücksichtigen.

Das Geometric Action Model (GAM): Ein Paradigmenwechsel in der Robotersteuerung

In diesem Kontext wurde das Geometric Action Model (GAM) als eine neuartige Lösung vorgestellt, die einen signifikanten Fortschritt in der Robotik darstellt. GAM adressiert die genannten Defizite, indem es ein vortrainiertes Geometrisches Grundlagenmodell (GFM) als zentrales Rückgrat für Wahrnehmung, Vorhersage und Aktionsdekodierung wiederverwendet. Dieser Ansatz ermöglicht es dem Roboter, die 3D-Geometrie der Umgebung explizit in seine Entscheidungsfindung einzubeziehen, was für kontaktintensive Manipulationsaufgaben von hoher Relevanz ist.

Architektur und Funktionsweise

Das GAM-Modell integriert das GFM auf eine Weise, die es in einer Zwischenschicht aufteilt: Die flachen Schichten des GFM dienen als Beobachtungscodierer, während ein kausaler Zukunftsprädiktor, der an dieser Trennschicht eingefügt wird, zukünftige latente Tokens vorhersagt. Diese Struktur erlaubt es GAM, nicht nur statische Geometriedaten zu verarbeiten, sondern auch dynamische Veränderungen in der Szene zu antizipieren. Die Sprache als Eingabe ermöglicht eine intuitive Steuerung und Aufgabenbeschreibung, wodurch die Roboter in der Lage sind, komplexe Anweisungen zu befolgen und entsprechende Aktionen auszuführen.

Die explizite Nutzung von 3D-Geometrie unterscheidet GAM von vielen bestehenden VLA-Modellen, die zwar starke semantische oder temporale Prioritäten von großen Grundlagenmodellen erben, jedoch oft die geometrischen Informationen vernachlässigen, die für eine erfolgreiche Interaktion mit der physischen Welt unerlässlich sind. Durch die Integration des GFM wird eine robustere und generalisierbarere Roboterpolitik ermöglicht, die weniger anfällig für Veränderungen in Objekten, Hintergründen oder Roboter-Embodiments ist.

Leistung und Effizienz

Die Leistungsfähigkeit von GAM ist durch beeindruckende Metriken belegt. Das Modell verfügt über 1,4 Milliarden Parameter, was auf seine Fähigkeit hinweist, komplexe Muster und Zusammenhänge zu lernen. Trotz dieser Größe erreicht es eine bemerkenswert niedrige Inferenzzeit von 6,9 Millisekunden. Dies ist ein kritischer Faktor für Anwendungen in der Robotik, bei denen schnelle Reaktionszeiten oft erforderlich sind.

Auf dem LIBERO-Plus-Benchmark, einem Standard für die Bewertung von Robotersteuerungsmodellen, erzielt GAM eine Genauigkeit von 85,5 %. Dies übertrifft die Leistung vieler Baselines erheblich. Darüber hinaus ist GAM 55-mal schneller als diese Baselines, was seine Effizienz und Praxistauglichkeit unterstreicht. Diese Kombination aus hoher Genauigkeit und Geschwindigkeit macht GAM zu einer vielversprechenden Technologie für eine breite Palette von Robotikanwendungen.

Implikationen für die B2B-Anwendung

Für Unternehmen im B2B-Sektor, die sich mit Robotik, Automatisierung und KI beschäftigen, bietet das Geometric Action Model mehrere wichtige Implikationen:

- Erhöhte Robustheit und Präzision: Die explizite Berücksichtigung von 3D-Geometrie führt zu einer zuverlässigeren und genaueren Robotersteuerung, insbesondere bei Aufgaben, die einen engen Kontakt mit Objekten erfordern. Dies ist entscheidend für Bereiche wie Fertigung, Logistik und medizinische Robotik. - Schnellere Implementierung und Skalierbarkeit: Die hohe Inferenzgeschwindigkeit und die Effizienz des Modells ermöglichen eine schnellere Integration in bestehende Systeme und eine skalierbare Bereitstellung in verschiedenen Anwendungsfällen. - Sprachgesteuerte Interaktion: Die Fähigkeit, sprachbasierte Anweisungen zu verarbeiten, vereinfacht die Programmierung und Interaktion mit Robotern, was die Benutzerfreundlichkeit erhöht und die Einarbeitungszeit für Mitarbeiter reduziert. - Reduzierung von Entwicklungsaufwand: Durch die Nutzung eines vortrainierten GFM können Unternehmen den Aufwand für die Entwicklung eigener geometriebezogener Modelle reduzieren und sich auf die spezifischen Anwendungsfälle konzentrieren. - Potenzial für neue Anwendungsfelder: Die verbesserte Fähigkeit zur 3D-Raumwahrnehmung und -manipulation eröffnet neue Möglichkeiten für Roboter in Umgebungen, die bisher als zu komplex galten, beispielsweise in der Montage von Kleinteilen oder der Durchführung heikler Operationen.

Herausforderungen und Zukunftsperspektiven

Trotz der vielversprechenden Ergebnisse gibt es weiterhin Herausforderungen im Bereich der Robotersteuerung. Die Generalisierbarkeit auf eine noch breitere Palette von ungesehenen Objekten, Hintergründen und Roboter-Embodiments bleibt ein Forschungsfeld. Zudem ist die nahtlose Integration von geometrischen Modellen mit anderen modalen Informationen, wie beispielsweise Tastsinn oder Kraftrückmeldung, ein Bereich mit weiterem Optimierungspotenzial.

Die Forschung im Bereich der geometrie-bewussten Vision-Language-Action-Modelle schreitet voran. Ansätze wie GeoAware-VLA und GEAR-VLA zielen darauf ab, die Ansichtsinvarianz zu verbessern und geometrie-bewusste Aktionsrepräsentationen zu lernen. Auch die Integration von 3D-Denkprozessen in VLA-Modelle, wie bei 3DThinkVLA, zeigt das Bestreben, Roboter mit einem tieferen Verständnis der physischen Welt auszustatten.

Das Geometric Action Model stellt einen entscheidenden Schritt in Richtung autonomer und intelligenter Robotersysteme dar, die in der Lage sind, die Komplexität der 3D-Welt zu navigieren und zu manipulieren. Die Kombination aus präziser Geometriewahrnehmung, schneller Inferenz und hoher Leistungsfähigkeit bietet eine solide Grundlage für zukünftige Innovationen in der Robotik und Automatisierung.

Bibliography

- Geometric Action Model for Robot Policy Learning. Jisang Han et al. KAIST AI, ETH Zurich. Online verfügbar unter: https://cvlab-kaist.github.io/Geometric-Action-Model/ - Geometric Action Model for Robot Policy Learning. Jisang Han et al. arXiv:2606.17046. Online verfügbar unter: https://arxiv.org/html/2606.17046 - cvlab-kaist/Geometric-Action-Model (GitHub Repository). Online verfügbar unter: https://github.com/cvlab-kaist/Geometric-Action-Model - GeoAware-VLA: Implicit Geometry Aware Vision-Language-Action Model. Ali Abouzeid et al. arXiv:2509.14117v4. Online verfügbar unter: https://arxiv.org/html/2509.14117v4 - GEAR-VLA: Learning Geometry-Aware Action Representations for Generalizable Robotic Manipulation. Yuan Zhang et al. arXiv:2606.08530. Online verfügbar unter: https://arxiv.org/html/2606.08530 - Action–Geometry Prediction with 3D Geometric Prior for Bimanual Manipulation. Chongyang Xu et al. arXiv:2602.23814. Online verfügbar unter: https://arxiv.org/html/2602.23814