Ein Forscherteam hat mit ROCKET-1 eine neue Methode vorgestellt, die es KI-Agenten ermöglicht, präziser mit virtuellen Umgebungen wie Minecraft zu interagieren. Der Ansatz kombiniert Objekterkennung und -verfolgung mit großen KI-Modellen.
Die Forscher haben eine neue Technik namens "Visual-temporal context prompting" entwickelt, die darauf abzielt, KI-Agenten in die Lage zu versetzen, präziser in virtuellen Umgebungen zu agieren. Das ROCKET-1-System nutzt dafür eine Kombination aus Objekterkennung, -verfolgung und multimodalen KI-Modellen.
Bisherige Ansätze zur Steuerung von KI-Agenten, wie die ausschließliche Verwendung von Sprachmodellen zur Generierung von Anweisungen oder die Nutzung von Diffusionsmodellen zur Vorhersage zukünftiger Zustände in der Spielwelt, stoßen laut den Forschern auf Probleme: "Sprache kann räumliche Informationen oft nicht effektiv vermitteln, während die Generierung zukünftiger Bilder mit ausreichender Genauigkeit eine Herausforderung bleibt." Daher setzt ROCKET-1 auf eine neue Art der visuellen Kommunikation zwischen KI-Modellen.
Das System arbeitet auf mehreren Ebenen: GPT-4o fungiert als übergeordnete "Planungsinstanz", die komplexe Aufgaben wie "Beschaffe Obsidian" in einzelne Schritte zerlegt. Das multimodale Modell Molmo identifiziert dann anhand von Koordinatenpunkten die relevanten Objekte in den Bildern. SAM-2 generiert aus diesen Punkten präzise Objektmasken und verfolgt die Objekte in Echtzeit. ROCKET-1 selbst ist die ausführende Komponente, die anhand dieser Objektmasken und Anweisungen die eigentlichen Aktionen in der Spielwelt ausführt und dabei Tastatur- und Mauseingaben steuert.
Der Ansatz ist laut dem Team vom menschlichen Verhalten inspiriert. Die Forscher erklären: "Bei der Ausführung menschlicher Aufgaben, wie dem Greifen von Objekten, stellen sich Menschen das Halten eines Objekts nicht vor, sondern konzentrieren sich beim Annähern an das Zielobjekt auf dessen Affordanz." Kurz gesagt: Wir versuchen nicht, uns vorzustellen, wie es wäre, etwas in der Hand zu halten - wir greifen es einfach mit unserer Sinneswahrnehmung auf.
In einer Demo zeigt das Team, wie ein Mensch ROCKET-1 direkt steuern kann: Durch Klicken auf Objekte in der Spielwelt wird das System zum Interagieren aufgefordert. In der vom Team vorgeschlagenen hierarchischen Agentenstruktur, die auf GPT-4o, Molmo und SAM-2 basiert, reduziert sich der menschliche Input auf eine Textanweisung.
Für das Training nutzte das Forscherteam den "Contractor"-Datensatz von OpenAI, der aus 1,6 Milliarden Einzelbildern menschlichen Spielverhaltens in Minecraft besteht. Die Forscher entwickelten eine spezielle Methode namens "Backward Trajectory Relabeling", um die Trainingsdaten automatisiert zu erstellen.
Das System nutzt das KI-Modell SAM-2, um die Aufnahmen rückwärts zu durchlaufen und automatisch zu erkennen, mit welchen Objekten der Spieler interagiert hat. Diese Objekte werden dann in den vorherigen Frames markiert, wodurch ROCKET-1 lernen kann, relevante Objekte zu erkennen und mit ihnen zu interagieren.
Die Überlegenheit des Systems zeigt sich besonders bei komplexen Langzeitaufgaben in Minecraft. Bei sieben Aufgaben, wie dem Herstellen von Werkzeugen oder dem Abbauen von Ressourcen, erreichte ROCKET-1 Erfolgsquoten von bis zu 100 Prozent, während andere Systeme oft komplett scheiterten. Selbst bei komplexeren Aufgaben wie dem Abbau von Diamanten oder der Herstellung von Obsidian erreichte das System eine Erfolgsquote von 25 bzw. 50 Prozent.
Die Forscher räumen aber auch die Grenzen von ROCKET-1 ein: "Obwohl ROCKET-1 die Interaktionsmöglichkeiten in Minecraft deutlich verbessert, kann es nicht mit Objekten interagieren, die sich außerhalb seines Sichtfeldes befinden oder denen es zuvor noch nicht begegnet ist." Diese Einschränkung führt zu einem erhöhten Rechenaufwand, da die übergeordneten Modelle häufiger eingreifen müssen.
Weitere Informationen und Beispiele sind auf der Projektseite auf GitHub verfügbar.
ROCKET-1 ist ein vielversprechender Ansatz, um KI-Agenten in virtuellen Umgebungen deutlich leistungsfähiger zu machen. Die Kombination aus Objekterkennung, -verfolgung und multimodalen KI-Modellen ermöglicht es dem System, komplexe Aufgaben mit beeindruckender Präzision auszuführen. Ob sich der Ansatz auch auf andere virtuelle Umgebungen oder gar die reale Welt übertragen lässt, müssen zukünftige Forschungen zeigen.