Jetzt reinschauen – neue Umgebung live

Neuer KI-Agent optimiert Interaktion in Minecraft durch Echtzeit-Objekterkennung

Kategorien:
No items found.
Freigegeben:
October 29, 2024

Artikel jetzt als Podcast anhören

KI-Agent ROCKET-1 revolutioniert Minecraft: Diamantenabbau durch Objekterkennung in Echtzeit

Ein Forscherteam hat mit ROCKET-1 eine neue Methode vorgestellt, die es KI-Agenten ermöglicht, präziser mit virtuellen Umgebungen wie Minecraft zu interagieren. Der Ansatz kombiniert Objekterkennung und -verfolgung mit großen KI-Modellen.

Visuell-zeitlicher Kontext als Schlüssel zur Präzision

Die Forscher haben eine neue Technik namens "Visual-temporal context prompting" entwickelt, die darauf abzielt, KI-Agenten in die Lage zu versetzen, präziser in virtuellen Umgebungen zu agieren. Das ROCKET-1-System nutzt dafür eine Kombination aus Objekterkennung, -verfolgung und multimodalen KI-Modellen.

Bisherige Ansätze zur Steuerung von KI-Agenten, wie die ausschließliche Verwendung von Sprachmodellen zur Generierung von Anweisungen oder die Nutzung von Diffusionsmodellen zur Vorhersage zukünftiger Zustände in der Spielwelt, stoßen laut den Forschern auf Probleme: "Sprache kann räumliche Informationen oft nicht effektiv vermitteln, während die Generierung zukünftiger Bilder mit ausreichender Genauigkeit eine Herausforderung bleibt." Daher setzt ROCKET-1 auf eine neue Art der visuellen Kommunikation zwischen KI-Modellen.

GPT-4o plant, ROCKET-1 handelt

Das System arbeitet auf mehreren Ebenen: GPT-4o fungiert als übergeordnete "Planungsinstanz", die komplexe Aufgaben wie "Beschaffe Obsidian" in einzelne Schritte zerlegt. Das multimodale Modell Molmo identifiziert dann anhand von Koordinatenpunkten die relevanten Objekte in den Bildern. SAM-2 generiert aus diesen Punkten präzise Objektmasken und verfolgt die Objekte in Echtzeit. ROCKET-1 selbst ist die ausführende Komponente, die anhand dieser Objektmasken und Anweisungen die eigentlichen Aktionen in der Spielwelt ausführt und dabei Tastatur- und Mauseingaben steuert.

Der Ansatz ist laut dem Team vom menschlichen Verhalten inspiriert. Die Forscher erklären: "Bei der Ausführung menschlicher Aufgaben, wie dem Greifen von Objekten, stellen sich Menschen das Halten eines Objekts nicht vor, sondern konzentrieren sich beim Annähern an das Zielobjekt auf dessen Affordanz." Kurz gesagt: Wir versuchen nicht, uns vorzustellen, wie es wäre, etwas in der Hand zu halten - wir greifen es einfach mit unserer Sinneswahrnehmung auf.

In einer Demo zeigt das Team, wie ein Mensch ROCKET-1 direkt steuern kann: Durch Klicken auf Objekte in der Spielwelt wird das System zum Interagieren aufgefordert. In der vom Team vorgeschlagenen hierarchischen Agentenstruktur, die auf GPT-4o, Molmo und SAM-2 basiert, reduziert sich der menschliche Input auf eine Textanweisung.

Training mit Milliarden von Bildern

Für das Training nutzte das Forscherteam den "Contractor"-Datensatz von OpenAI, der aus 1,6 Milliarden Einzelbildern menschlichen Spielverhaltens in Minecraft besteht. Die Forscher entwickelten eine spezielle Methode namens "Backward Trajectory Relabeling", um die Trainingsdaten automatisiert zu erstellen.

Das System nutzt das KI-Modell SAM-2, um die Aufnahmen rückwärts zu durchlaufen und automatisch zu erkennen, mit welchen Objekten der Spieler interagiert hat. Diese Objekte werden dann in den vorherigen Frames markiert, wodurch ROCKET-1 lernen kann, relevante Objekte zu erkennen und mit ihnen zu interagieren.

Beeindruckende Erfolgsquoten, aber auch Grenzen

Die Überlegenheit des Systems zeigt sich besonders bei komplexen Langzeitaufgaben in Minecraft. Bei sieben Aufgaben, wie dem Herstellen von Werkzeugen oder dem Abbauen von Ressourcen, erreichte ROCKET-1 Erfolgsquoten von bis zu 100 Prozent, während andere Systeme oft komplett scheiterten. Selbst bei komplexeren Aufgaben wie dem Abbau von Diamanten oder der Herstellung von Obsidian erreichte das System eine Erfolgsquote von 25 bzw. 50 Prozent.

Die Forscher räumen aber auch die Grenzen von ROCKET-1 ein: "Obwohl ROCKET-1 die Interaktionsmöglichkeiten in Minecraft deutlich verbessert, kann es nicht mit Objekten interagieren, die sich außerhalb seines Sichtfeldes befinden oder denen es zuvor noch nicht begegnet ist." Diese Einschränkung führt zu einem erhöhten Rechenaufwand, da die übergeordneten Modelle häufiger eingreifen müssen.

Weitere Informationen und Beispiele sind auf der Projektseite auf GitHub verfügbar.

Fazit

ROCKET-1 ist ein vielversprechender Ansatz, um KI-Agenten in virtuellen Umgebungen deutlich leistungsfähiger zu machen. Die Kombination aus Objekterkennung, -verfolgung und multimodalen KI-Modellen ermöglicht es dem System, komplexe Aufgaben mit beeindruckender Präzision auszuführen. Ob sich der Ansatz auch auf andere virtuelle Umgebungen oder gar die reale Welt übertragen lässt, müssen zukünftige Forschungen zeigen.

Bibliographie

https://www.youtube.com/watch?v=OKNYSnTi8UM https://minecraft.wiki/w/Firework_Rocket https://news.slashdot.org/story/24/10/19/003230/diamond-dust-could-cool-the-planet-at-a-cost-of-mere-trillions https://www.youtube.com/watch?v=0jpGft4Sx_8 https://p3dm.ru/ https://news.slashdot.org/story/24/10/02/215204/hurricane-helene-took-out-nc-town-the-entire-tech-world-relies-on https://www.wowdb.com/ https://despicableme.fandom.com/wiki/Felonius_Gru https://www.coolmathgames.com/1-popular-games
Was bedeutet das?

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
Herzlichen Dank! Deine Nachricht ist eingegangen!
Oops! Du hast wohl was vergessen, versuche es nochmal.