Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Fähigkeit des Menschen, durch Beobachten anderer neue Objekte zu manipulieren, ist bemerkenswert. Könnten Roboter auf ähnliche Weise lernen, würde dies eine natürlichere Schnittstelle zur Programmierung neuer Verhaltensweisen eröffnen. In diesem Kontext präsentiert sich "Robot See Robot Do" (RSRD) als vielversprechende Methode zur Imitation der Manipulation gelenkiger Objekte. RSRD benötigt lediglich eine einzige monokulare RGB-Demonstration durch einen Menschen sowie einen statischen Multi-View-Objektscan.
Zentral für RSRD ist die Entwicklung von "4D Differentiable Part Models" (4D-DPM). Dieser Ansatz ermöglicht die Rekonstruktion der 3D-Bewegung von Objektteilen aus einem monokularen Video mittels differenzierbarem Rendering. Vereinfacht ausgedrückt, versucht 4D-DPM, die Entstehung des Videos aus den 3D-Bewegungen der Objektteile zu simulieren. Durch den Vergleich der simulierten Bilder mit dem tatsächlichen Videomaterial und die schrittweise Anpassung der simulierten 3D-Bewegungen, kann 4D-DPM die tatsächliche 3D-Bewegung der Objektteile rekonstruieren. Dieser Ansatz wird als "Analyse durch Synthese" bezeichnet. Die Verwendung von geometrischen Regularisierern, die die Plausibilität der 3D-Bewegungen sicherstellen, ermöglicht es 4D-DPM, diese Rekonstruktion auch aus einem einzigen Video durchzuführen.
Basierend auf der 4D-Rekonstruktion plant der Roboter seine Bewegungen. Dabei liegt der Fokus nicht auf der direkten Nachahmung der menschlichen Hand, sondern auf der Replikation der Bewegung der Objektteile. Dies wird durch die Planung bimanueller Armbewegungen erreicht, die die gewünschte Bewegung der Objektteile hervorrufen. Die Darstellung der Demonstration als Trajektorien einzelner Objektteile ermöglicht es RSRD, das eigentliche Ziel der Demonstration zu erfassen und dabei die morphologischen Einschränkungen des Roboters zu berücksichtigen.
Die Evaluierung von 4D-DPM erfolgte anhand von 3D-Objektteil-Trajektorien, die mit Ground-Truth-Annotationen versehen waren. Die Ergebnisse zeigen eine hohe Genauigkeit bei der 3D-Verfolgung. Die Leistungsfähigkeit von RSRD wurde in physischen Ausführungstests mit einem bimanuellen YuMi-Roboter unter Beweis gestellt. In diesen Tests wurden 9 verschiedene Objekte verwendet, wobei jedes Objekt in 10 Durchläufen manipuliert werden musste. Die Erfolgsquote lag bei durchschnittlich 87% für jede Phase von RSRD, was zu einer beeindruckenden Gesamterfolgsquote von 60% über alle 90 Durchläufe hinweg führte.
Besonders bemerkenswert ist, dass RSRD diese Leistungen ohne aufgabenspezifisches Training, Feinabstimmung, Datenerfassung oder Annotationen erzielt. Stattdessen nutzt RSRD vortrainierte Modelle zur visuellen Merkmalsextraktion. Diese Modelle wurden auf riesigen Datensätzen trainiert, um allgemeine visuelle Merkmale zu erlernen, die sich auf eine Vielzahl von Aufgaben übertragen lassen. RSRD nutzt diese vortrainierten Modelle, um die relevanten visuellen Informationen aus den Demonstrationsvideos zu extrahieren, ohne dass ein Training speziell für die jeweilige Manipulationsaufgabe erforderlich ist. Dieser Ansatz des "Zero-Shot-Learning" ist ein vielversprechender Schritt in Richtung einer flexibleren und anpassungsfähigeren Robotermanipulation.
Zusammenfassend lässt sich sagen, dass RSRD einen bedeutenden Fortschritt im Bereich der Robotermanipulation darstellt. Durch die Kombination von 4D-DPM und der Fokussierung auf Objektteile ebnet RSRD den Weg für eine intuitivere und effizientere Interaktion zwischen Mensch und Roboter. Die Fähigkeit, aus einer einzigen Demonstration zu lernen, ohne auf aufgabenspezifisches Training angewiesen zu sein, eröffnet neue Möglichkeiten für den Einsatz von Robotern in einer Vielzahl von Anwendungsbereichen.
- https://openreview.net/forum?id=2LLu3gavF1
- https://openreview.net/pdf/fba2aad444602b0131b3d699d4ac066d095f43c6.pdf
- https://www.researchgate.net/publication/365699733_Learning_to_Imitate_Object_Interactions_from_Internet_Videos
- https://ras.papercept.net/conferences/conferences/ICRA24/program/ICRA24_ContentListWeb_1.html
- https://github.com/PaoPaoRobot/IROS2022-paper-list
- https://ras.papercept.net/conferences/conferences/ICRA24/program/ICRA24_ContentListWeb_2.html
- https://www.researchgate.net/publication/364642440_DexMV_Imitation_Learning_for_Dexterous_Manipulation_from_Human_Videos?_share=1
- https://lnnx2006.github.io/publications/
- https://cvg.cit.tum.de/members/sturmju/phd_thesis&astext=1
- https://www.ipb.uni-bonn.de/wp-content/papercite-data/pdf/stachniss-habil.pdf
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen