Multimodales Retrieval und interaktives Lernen für Embodied Agents

Kategorien:

No items found.

Freigegeben:

October 11, 2024

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Multimodales Retrieval für Embodied Agents: Interaktives Lernen für effektivere Aufgabenbewältigung

Embodied Agents, also KI-Agenten, die in einer simulierten oder realen Umgebung agieren, gewinnen in der KI-Forschung zunehmend an Bedeutung. Ein vielversprechender Ansatz in diesem Bereich ist die Verwendung von Multimodalen Large Language Models (MLLMs), die sowohl Text- als auch Bilddaten verarbeiten können. Diese Modelle stoßen jedoch auf Herausforderungen, wenn es darum geht, das erlernte Wissen effektiv in realen Szenarien anzuwenden.

Die Herausforderung der effektiven Trajektorienbewertung

MLLM-Agenten zeigen Potenzial für komplexe Aufgaben, indem sie relevante Trajektoriendaten abrufen. Trajektorien in diesem Kontext beziehen sich auf Sequenzen von Aktionen und Beobachtungen, die ein Agent in der Vergangenheit durchgeführt hat. Derzeit konzentrieren sich Retrieval-Methoden jedoch hauptsächlich auf oberflächliche Ähnlichkeiten von Text- oder Bildmerkmalen in Trajektorien und vernachlässigen deren tatsächliche Effektivität für die jeweilige Aufgabe.

Ein Agent könnte beispielsweise eine Trajektorie abrufen, die eine ähnliche Aufgabenbeschreibung aufweist, sich aber in einer anderen Umgebung abspielt. In solchen Fällen bieten diese Trajektorien keine hilfreichen Informationen für die aktuelle Aufgabe und können den Agenten sogar in die Irre führen. Es zeigt sich, dass die reine Ähnlichkeit nicht ausreicht, um nützliche Trajektorien zu finden.

MART: Ein neuer Ansatz für interaktives Lernen

Um diese Herausforderung zu bewältigen, wurde ein neuer Ansatz namens MART (MLLM As ReTriever) entwickelt. MART nutzt interaktives Lernen, um die Leistung von Embodied Agents zu verbessern. Anstatt sich ausschließlich auf oberflächliche Ähnlichkeiten zu verlassen, nutzt MART Interaktionsdaten, um einen MLLM-Retriever mithilfe von Präferenzlernen zu optimieren. Dadurch kann der Retriever die Effektivität von Trajektorien besser einschätzen und diejenigen priorisieren, die für ungesehene Aufgaben am relevantesten sind.

Der Prozess beginnt mit der Bereitstellung von Experten-Trajektorien aus Trainingsszenarien als Eingabe für den MLLM-Agenten. Der Agent interagiert dann mit der Umgebung und sammelt Daten über die Erfolgsraten, die mit den verschiedenen Referenz-Trajektorien erzielt wurden. Diese Feedback-Daten werden in Präferenzpaare umgewandelt und verwendet, um ein MLLM – in diesem Fall LLaVA – mit einem Bradley-Terry-Modell zu optimieren.

Trajektorienabstraktion: Komprimierung für bessere Übersicht

Zusätzlich zu diesem interaktiven Lernansatz führt MART auch eine neue Trajektorienabstraktion ein. Dieser Mechanismus nutzt die Zusammenfassungskompetenzen von MLLMs, um Trajektorien mit weniger Tokens darzustellen, ohne dabei wichtige Informationen zu verlieren. Dies ermöglicht es den Agenten, die wichtigsten Meilensteine in der Trajektorie besser zu verstehen, insbesondere bei Aufgaben mit langem Zeithorizont. Die Trajektorienabstraktion reduziert nicht nur die erforderliche Kontextfensterlänge, sondern entfernt auch ablenkende Informationen aus den Trajektorienbeispielen.

Experimentelle Ergebnisse und Ausblick

Die Effektivität von MART wurde in empirischen Experimenten in verschiedenen Umgebungen untersucht. Die Ergebnisse zeigen, dass MART im Vergleich zu herkömmlichen Methoden die Erfolgsraten bei ungesehenen Aufgaben deutlich verbessert. Insbesondere übertraf MART die Baseline-Methoden in verschiedenen Umgebungen um über 10 %.

MART stellt einen Paradigmenwechsel im Bereich des multimodalen Retrievals für Embodied Agents dar. Durch die Feinabstimmung eines universellen MLLM als Retriever, der die Trajektorieneffektivität berücksichtigt, ebnet MART den Weg für leistungsstärkere und anpassungsfähigere KI-Agenten. Zukünftige Arbeiten könnten sich auf die Erweiterung von MART auf kontinuierliche Aktionsräume und komplexere reale Umgebungen konzentrieren.

Bibliographie

* http://arxiv.org/abs/2410.03450 * https://arxiv.org/html/2410.03450v1 * https://linnk.ai/insight/machine-learning/interactively-learning-multimodal-retrieval-to-enhance-embodied-agent-performance-in-unseen-environments-the-mart-approach-wOLPhWqe/ * https://arxiv-sanity-lite.com/?rank=pid&pid=2410.03450 * https://bytez.com/docs/arxiv/2410.0345/paper * https://www.researchgate.net/publication/384198657_LEGENT_Open_Platform_for_Embodied_Agents * https://2024.aclweb.org/program/finding_papers/ * https://github.com/azminewasi/Awesome-LLMs-ICLR-24 * https://icml.cc/virtual/2024/workshop/29957 * https://www.researchgate.net/publication/355023301_Retrieval-Augmented_Generation_for_Knowledge-Intensive_NLP_Tasks