Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Embodied Agents, also KI-Agenten, die in einer simulierten oder realen Umgebung agieren, gewinnen in der KI-Forschung zunehmend an Bedeutung. Ein vielversprechender Ansatz in diesem Bereich ist die Verwendung von Multimodalen Large Language Models (MLLMs), die sowohl Text- als auch Bilddaten verarbeiten können. Diese Modelle stoßen jedoch auf Herausforderungen, wenn es darum geht, das erlernte Wissen effektiv in realen Szenarien anzuwenden.
MLLM-Agenten zeigen Potenzial für komplexe Aufgaben, indem sie relevante Trajektoriendaten abrufen. Trajektorien in diesem Kontext beziehen sich auf Sequenzen von Aktionen und Beobachtungen, die ein Agent in der Vergangenheit durchgeführt hat. Derzeit konzentrieren sich Retrieval-Methoden jedoch hauptsächlich auf oberflächliche Ähnlichkeiten von Text- oder Bildmerkmalen in Trajektorien und vernachlässigen deren tatsächliche Effektivität für die jeweilige Aufgabe.
Ein Agent könnte beispielsweise eine Trajektorie abrufen, die eine ähnliche Aufgabenbeschreibung aufweist, sich aber in einer anderen Umgebung abspielt. In solchen Fällen bieten diese Trajektorien keine hilfreichen Informationen für die aktuelle Aufgabe und können den Agenten sogar in die Irre führen. Es zeigt sich, dass die reine Ähnlichkeit nicht ausreicht, um nützliche Trajektorien zu finden.
Um diese Herausforderung zu bewältigen, wurde ein neuer Ansatz namens MART (MLLM As ReTriever) entwickelt. MART nutzt interaktives Lernen, um die Leistung von Embodied Agents zu verbessern. Anstatt sich ausschließlich auf oberflächliche Ähnlichkeiten zu verlassen, nutzt MART Interaktionsdaten, um einen MLLM-Retriever mithilfe von Präferenzlernen zu optimieren. Dadurch kann der Retriever die Effektivität von Trajektorien besser einschätzen und diejenigen priorisieren, die für ungesehene Aufgaben am relevantesten sind.
Der Prozess beginnt mit der Bereitstellung von Experten-Trajektorien aus Trainingsszenarien als Eingabe für den MLLM-Agenten. Der Agent interagiert dann mit der Umgebung und sammelt Daten über die Erfolgsraten, die mit den verschiedenen Referenz-Trajektorien erzielt wurden. Diese Feedback-Daten werden in Präferenzpaare umgewandelt und verwendet, um ein MLLM – in diesem Fall LLaVA – mit einem Bradley-Terry-Modell zu optimieren.
Zusätzlich zu diesem interaktiven Lernansatz führt MART auch eine neue Trajektorienabstraktion ein. Dieser Mechanismus nutzt die Zusammenfassungskompetenzen von MLLMs, um Trajektorien mit weniger Tokens darzustellen, ohne dabei wichtige Informationen zu verlieren. Dies ermöglicht es den Agenten, die wichtigsten Meilensteine in der Trajektorie besser zu verstehen, insbesondere bei Aufgaben mit langem Zeithorizont. Die Trajektorienabstraktion reduziert nicht nur die erforderliche Kontextfensterlänge, sondern entfernt auch ablenkende Informationen aus den Trajektorienbeispielen.
Die Effektivität von MART wurde in empirischen Experimenten in verschiedenen Umgebungen untersucht. Die Ergebnisse zeigen, dass MART im Vergleich zu herkömmlichen Methoden die Erfolgsraten bei ungesehenen Aufgaben deutlich verbessert. Insbesondere übertraf MART die Baseline-Methoden in verschiedenen Umgebungen um über 10 %.
MART stellt einen Paradigmenwechsel im Bereich des multimodalen Retrievals für Embodied Agents dar. Durch die Feinabstimmung eines universellen MLLM als Retriever, der die Trajektorieneffektivität berücksichtigt, ebnet MART den Weg für leistungsstärkere und anpassungsfähigere KI-Agenten. Zukünftige Arbeiten könnten sich auf die Erweiterung von MART auf kontinuierliche Aktionsräume und komplexere reale Umgebungen konzentrieren.
Entdecken Sie die Vorteile gegenüber ChatGPT Plus
Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.
Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.
❌ Kein strukturierter Dokumentenvergleich
❌ Keine Bearbeitung im Dokumentkontext
❌ Keine Integration von Unternehmenswissen
✅ Gezielter Dokumentenvergleich mit Custom-Prompts
✅ Kontextbewusste Textbearbeitung im Editor
✅ Wissensbasierte Analyse & Zusammenfassungen
Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.
❌ Nur ein Modellanbieter (OpenAI)
❌ Keine Modellauswahl pro Use Case
❌ Keine zentrale Modellsteuerung für Teams
✅ Zugriff auf über 50 verschiedene KI-Modelle
✅ Modellauswahl pro Prompt oder Assistent
✅ Zentrale Steuerung auf Organisationsebene
❌ Keine echte Teamkollaboration
❌ Keine Rechte- oder Rollenverteilung
❌ Keine zentrale Steuerung oder Nachvollziehbarkeit
✅ Teamübergreifende Bearbeitung in Echtzeit
✅ Granulare Rechte- und Freigabeverwaltung
✅ Zentrale Steuerung & Transparenz auf Organisationsebene
Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.
Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.
🎯 Kostenlose Demo buchenLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen