KI für Ihr Unternehmen – Jetzt Demo buchen

Neue Ansätze für objektzentrierte Modelle in der Robotik: STORM verbessert Manipulationsfähigkeiten

Kategorien:
No items found.
Freigegeben:
January 30, 2026

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Der schnelle Überblick:

    • Visual Foundation Models (VFMs) sind für die Robotik leistungsfähig, aber ihre dichten Darstellungen mangeln an expliziten Objektstrukturen.
    • STORM (Slot-based Task-aware Object-centric Representation for robotic Manipulation) ist ein neues Modell, das VFMs mit semantikbewussten Slots erweitert.
    • Das Modell verwendet eine mehrphasige Trainingsstrategie, um Objektslots zu stabilisieren und an Manipulationsaufgaben anzupassen.
    • Experimente zeigen, dass STORM die Generalisierungsfähigkeit und Kontrollleistung bei Roboter-Manipulationsaufgaben verbessert.
    • Die Forschung hebt die Bedeutung objektzentrischer Darstellungen für die Robotersteuerung hervor, insbesondere bei visuellen Ablenkungen.

    Revolution in der Robotik: Wie STORM die Manipulation durch objektzentrische Modelle verbessert

    Die Robotik steht an der Schwelle zu einer neuen Ära, in der Maschinen komplexe Manipulationsaufgaben mit beispielloser Präzision und Anpassungsfähigkeit ausführen können. Ein zentraler Fortschritt in diesem Bereich ist die Entwicklung von "Visual Foundation Models" (VFMs), die der Robotik leistungsstarke Wahrnehmungsmerkmale bieten. Diese Modelle, die oft auf umfangreichen Datensätzen trainiert werden, ermöglichen es Robotern, ihre Umgebung visuell zu erfassen und zu interpretieren. Trotz ihrer Stärken weisen diese dichten Darstellungen jedoch oft einen Mangel an expliziter, objektbezogener Struktur auf. Dies kann die Robustheit und Kontrollierbarkeit bei detaillierten Manipulationsaufgaben einschränken. Die jüngste Forschung konzentriert sich daher auf Ansätze, die diese Lücke schließen sollen, indem sie die Stärken von VFMs nutzen und gleichzeitig eine klarere Objektwahrnehmung ermöglichen.

    Die Herausforderung der Objekterkennung in der Robotik

    Bestehende Visual Foundation Models generieren oft dichte, pixelbasierte Darstellungen der Umgebung. Diese Darstellungen sind zwar reich an Informationen, erschweren es aber, einzelne Objekte und deren Eigenschaften für spezifische Manipulationsaufgaben klar zu identifizieren und zu isolieren. Dies führt zu Herausforderungen in Bezug auf:

    • Robustheit: Wenn Roboter mit visuellen Ablenkungen oder sich ändernden Umgebungsbedingungen konfrontiert werden, können dichte Darstellungen unzuverlässig werden.
    • Kontrollierbarkeit: Für präzise Manipulationsaufgaben ist ein explizites Verständnis der Objekte und ihrer Interaktionen mit der Umgebung unerlässlich.
    • Generalisierungsfähigkeit: Die Fähigkeit eines Roboters, gelernte Fähigkeiten auf neue, unbekannte Objekte oder Szenarien zu übertragen, wird durch eine unstrukturierte Objektdarstellung behindert.

    Diese Einschränkungen haben die Notwendigkeit aufgezeigt, Visual Foundation Models so anzupassen, dass sie eine objektzentrische Sichtweise integrieren können, ohne dabei ihre grundlegenden Wahrnehmungsfähigkeiten zu verlieren.

    STORM: Eine neue Architektur für präzise Roboter-Manipulation

    Ein vielversprechender Ansatz zur Überwindung dieser Herausforderungen ist STORM (Slot-based Task-aware Object-centric Representation for robotic Manipulation). STORM ist ein leichtgewichtiges, objektzentrisches Anpassungsmodul, das bestehende Visual Foundation Models mit einer kleinen Anzahl von semantikbewussten "Slots" für die Roboter-Manipulation erweitert. Anstatt große Backbones neu zu trainieren, verfolgt STORM eine mehrphasige Trainingsstrategie:

    • Phase 1: Visuell-semantisches Vortraining. Die objektzentrischen Slots werden zunächst durch visuell-semantisches Vortraining unter Verwendung von Spracheinbettungen stabilisiert. Dies hilft dem Modell, die Bedeutung der Slots in Bezug auf reale Objekte zu verstehen.
    • Phase 2: Anpassung an die Manipulationspolitik. Anschließend werden diese Slots gemeinsam mit einer nachgelagerten Manipulationspolitik angepasst. Dieser gestufte Lernprozess verhindert die Bildung degenerierter Slots und bewahrt die semantische Konsistenz, während die Wahrnehmung an den Aufgabenzielen ausgerichtet wird.

    Diese Methode wurde von Alexandre Chapin, Emmanuel Dellandréa und Liming Chen vom LIRIS (Laboratoire d'InfoRmatique en Image et Systèmes d'information) entwickelt und in einer Veröffentlichung mit dem Titel "STORM: Slot-based Task-aware Object-centric Representation for robotic Manipulation" vorgestellt.

    Ergebnisse und Implikationen für die Praxis

    Experimente mit STORM an Objekterkennungs-Benchmarks und simulierten Manipulationsaufgaben haben signifikante Verbesserungen gezeigt. Das Modell verbessert die Generalisierungsfähigkeit gegenüber visuellen Ablenkungen und die Kontrollleistung im Vergleich zur direkten Verwendung von Features aus gefrorenen Foundation Models oder dem End-to-End-Training objektzentrischer Darstellungen. Die Ergebnisse unterstreichen die Effizienz der mehrphasigen Anpassung als Mechanismus zur Transformation generischer Foundation-Model-Features in aufgabenbewusste, objektzentrische Darstellungen für die Robotersteuerung.

    Die Fähigkeit von STORM, Objekte präzise zu erkennen und zu manipulieren, selbst in komplexen und unübersichtlichen Umgebungen, hat weitreichende Implikationen für verschiedene B2B-Szenarien:

    • Industrielle Automatisierung: Roboter können präzisere Montage- und Sortieraufgaben ausführen, selbst wenn Objekte variieren oder Ablenkungen vorhanden sind.
    • Logistik und Lagerhaltung: Verbesserte Objekterkennung ermöglicht effizienteres Greifen und Platzieren von Waren, auch bei unterschiedlichen Verpackungen oder Lichtverhältnissen.
    • Medizinische Robotik: Für filigrane Operationen oder Laborarbeiten können Roboter mit STORM eine höhere Genauigkeit und Anpassungsfähigkeit an unvorhergesehene Situationen erreichen.
    • Service-Robotik: Roboter, die in Haushalten oder öffentlichen Bereichen eingesetzt werden, können Objekte zuverlässiger handhaben und sich besser an dynamische Umgebungen anpassen.

    Die Forschung zeigt, dass objektzentrische Darstellungen ein entscheidender Schritt sind, um die Lücke zwischen der Wahrnehmung durch allgemeine Visual Foundation Models und den spezifischen Anforderungen der Roboter-Manipulation zu schließen. Durch die Integration von semantikbewussten Slots und einer intelligenten Trainingsstrategie ebnet STORM den Weg für robustere, anpassungsfähigere und effizientere Robotersysteme in der Zukunft.

    Ausblick

    Die Weiterentwicklung objektzentrischer Modelle wie STORM wird voraussichtlich zu einer neuen Generation von Robotern führen, die nicht nur sehen, sondern auch verstehen, was sie sehen. Dies wird es ihnen ermöglichen, in komplexen, unstrukturierten Umgebungen effektiver zu agieren und eine breitere Palette von Aufgaben zu bewältigen, die bisher menschliches Eingreifen erforderten. Die Fähigkeit, Objekte explizit zu identifizieren und ihre Beziehungen zur Umgebung zu verstehen, ist ein grundlegender Schritt hin zu wirklich intelligenten und autonomen Robotersystemen.

    Bibliography: - Chapin, Alexandre, Dellandréa, Emmanuel, & Chen, Liming. (2026). STORM: Slot-based Task-aware Object-centric Representation for robotic Manipulation. arXiv preprint arXiv:2601.20381. - Hugging Face Daily Papers (2026). Slot-based Task-aware Object-centric Representation for robotic Manipulation. Available at: https://huggingface.co/papers/2601.20381 - arXiv Robotics (Recent Submissions). Available at: https://arxiv.org/list/cs.RO/recent - Li, Xiaoqi, et al. (2025). Object-Centric Prompt-Driven Vision-Language-Action Model for Robotic Manipulation. CVPR 2025 paper. Available at: https://openaccess.thecvf.com/content/CVPR2025/papers/Li_Object-Centric_Prompt-Driven_Vision-Language-Action_Model_for_Robotic_Manipulation_CVPR_2025_paper.pdf - Chapin, Alexandre, et al. (n.d.). Slot-based Object-Centric Representations Improve Policy Generalization in Robot Manipulation. CoRL 2025. Available at: https://corl25-genpriors.github.io/Papers/7_Slot_Based_Object_Centric_Re.pdf - The Moonlight. (n.d.). [Literature Review] Object-Centric World Model for Language-Guided Manipulation. Available at: https://www.themoonlight.io/en/review/object-centric-world-model-for-language-guided-manipulation

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen