Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Die rasanten Fortschritte im Bereich der Künstlichen Intelligenz, insbesondere bei großen Sprachmodellen (LLMs), haben gezeigt, wie effektiv selbstüberwachtes Lernen aus umfangreichen Datensätzen sein kann. Diese Erfolge in der natürlichsprachlichen Verarbeitung werfen die Frage auf, ob ähnliche Methoden auch im Bereich der Robotik Anwendung finden können. Die Herausforderung besteht darin, die aus großen Videodatensätzen gewonnenen Informationen für die Steuerung von Robotern nutzbar zu machen.
Herkömmliche Ansätze im Roboterlernen sind oft aufwendig, da sie die manuelle Beschriftung von Bewegungsdaten erfordern. Moto verfolgt einen anderen Weg, inspiriert von der menschlichen Fähigkeit, durch Beobachtung zu lernen. Das System konzentriert sich auf die Extraktion von Bewegungsinformationen aus Videos, um eine Art „Bewegungssprache“ zu entwickeln. Diese „Sprache“ dient als Brücke zwischen den Videodaten und den Aktionen eines Roboters.
Moto besteht aus drei Hauptkomponenten und Trainingsphasen:
1. Latent Motion Tokenizer: Dieser Tokenizer analysiert Videobilder und wandelt Bewegungsabläufe zwischen Einzelbildern in eine Sequenz von latenten Bewegungstoken um. Diese Token repräsentieren die Bewegungsmuster in komprimierter Form und bilden die Grundlage der „Bewegungssprache“. Der Tokenizer wird unüberwacht trainiert, d.h. ohne manuelle Beschriftung der Daten.
2. Moto-GPT (Pre-Training): Ähnlich wie bei Sprachmodellen wird Moto-GPT mittels autoregressiver Vorhersage trainiert. Das Modell lernt, den nächsten Bewegungstoken in einer Sequenz vorherzusagen, basierend auf den vorhergehenden Token und dem ersten Bild des Videoclips. Durch diesen Prozess erwirbt Moto-GPT ein Verständnis für typische Bewegungsabläufe und kann diese generalisieren.
3. Moto-GPT (Feinabstimmung): Um die gelernten Bewegungsmuster auf die Steuerung eines Roboters zu übertragen, wird Moto-GPT in einer dritten Phase feinabgestimmt. Hierbei werden die Bewegungstoken mit zusätzlichen Aktionsabfrage-Token kombiniert, die die Ausführung konkreter Roboteraktionen steuern. Diese Feinabstimmung erfolgt auf Basis von beschrifteten Roboterdaten und ermöglicht die präzise Umsetzung der aus Videos gelernten Bewegungen.
Erste Experimente zeigen vielversprechende Ergebnisse. Moto-GPT kann Bewegungstrajektorien vorhersagen, deren Plausibilität bewerten und gelernte Bewegungsprioritäten effektiv auf Roboteraktionen übertragen. Dies eröffnet neue Möglichkeiten für das Roboterlernen, insbesondere in Szenarien mit limitierten Trainingsdaten. Die Nutzung von Videodaten als reichhaltige Informationsquelle könnte die Entwicklung von robusteren und effizienteren Robotern beschleunigen. Zukünftige Forschung könnte sich auf die Erweiterung der „Bewegungssprache“ und die Integration weiterer Modalitäten wie z.B. Audiodaten konzentrieren, um das Verständnis von komplexen Interaktionen weiter zu verbessern. Mindverse, als Anbieter von KI-Lösungen, verfolgt diese Entwicklungen mit großem Interesse und sieht in Ansätzen wie Moto das Potenzial, maßgeschneiderte KI-Lösungen für Robotik-Anwendungen zu entwickeln.
Bibliographie: Chen, Y., Ge, Y., Li, Y., Ge, Y., Ding, M., Shan, Y., & Liu, X. (2024). Moto: Latent Motion Token as the Bridging Language for Robot Manipulation. arXiv preprint arXiv:2412.04445. https://arxiv.org/abs/2412.04445 https://arxiv.org/html/2412.04445v1 https://deeplearn.org/arxiv/555384/moto:-latent-motion-token-as-the-bridging-language-for-robot-manipulation https://www.aimodels.fyi/authors/arxiv/Yuying%20Ge https://simulately.wiki/daily/daily/ https://github.com/GT-RIPL/Awesome-LLM-Robotics https://ras.papercept.net/conferences/conferences/IROS24/program/IROS24_ContentListWeb_2.html https://paperreading.club/category?cate=arXiv_AI https://www.youtube.com/watch?v=foxdHmc9t2gLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen