AgentStore: Ein skalierbarer Ansatz zur Integration heterogener Agenten für umfassende Computerunterstützung
Digitale Agenten, die komplexe Computertasks automatisieren, gewinnen zunehmend an Bedeutung, da sie das Potenzial haben, die Mensch-Computer-Interaktion grundlegend zu verändern. Bisherige Ansätze zeigen jedoch Schwächen in ihrer Generalisierungs- und Spezialisierungsfähigkeit, insbesondere bei offenen Aufgaben in realen Umgebungen. Inspiriert vom App Store, präsentieren Forscher nun AgentStore, eine skalierbare Plattform zur dynamischen Integration heterogener Agenten.
AgentStore ermöglicht die Integration von Drittanbieter-Agenten, wodurch das System seine Fähigkeiten kontinuierlich erweitern und sich an die rasante Entwicklung von Betriebssystemen anpassen kann. Kernstück ist der MetaAgent, der mit einer AgentToken-Strategie verschiedene Agenten verwaltet und deren spezialisierte und allgemeine Fähigkeiten für domänenspezifische und systemweite Aufgaben nutzt.
Ausführliche Experimente auf drei anspruchsvollen Benchmarks zeigen, dass AgentStore die Grenzen bisheriger Systeme mit eingeschränkten Fähigkeiten überwindet. Insbesondere auf dem OSWorld-Benchmark wurde eine signifikante Verbesserung von 11,21% auf 23,85% erreicht, was mehr als einer Verdoppelung der bisherigen Ergebnisse entspricht. Quantitative und qualitative Ergebnisse belegen die Fähigkeit von AgentStore, Agentensysteme sowohl in der Generalisierung als auch in der Spezialisierung zu verbessern, und unterstreichen das Potenzial für die Entwicklung spezialisierter, generalistischer Computerassistenten.
Hintergrund und Motivation
Die stetige Weiterentwicklung von Betriebssystemen und die wachsende Zahl von Anwendungen verändern die Art und Weise, wie wir arbeiten und leben. Diese zunehmende Funktionalität bringt jedoch eine steile Lernkurve mit sich und stellt Nutzer oft vor Herausforderungen. Autonome Computerassistenten, die komplexe Aufgaben selbstständig erledigen, rücken daher immer mehr in den Fokus der Forschung.
Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) tragen dazu bei, diese Vision zu verwirklichen. MLLM-basierte Agenten zeigen bereits bemerkenswerte Fähigkeiten bei der Bewältigung komplexer Aufgaben, dank ihrer Stärken in Planung und Argumentation. Die Nutzung von MLLMs zur Entwicklung digitaler Agenten für die Automatisierung von Computertasks ist ein vielversprechender Ansatz. Reale Betriebssystemumgebungen umfassen jedoch eine Vielzahl offener Aufgaben, die jeweils spezifische Fähigkeiten erfordern. Dies stellt bestehende Methoden vor große Herausforderungen.
AgentStore Architektur und Funktionsweise
AgentStore ist als flexible und skalierbare Plattform konzipiert, die verschiedene heterogene Agenten dynamisch integriert, um Betriebssystemaufgaben unabhängig oder kollaborativ zu automatisieren. Nutzer können ihre eigenen spezialisierten Agenten in die Plattform integrieren, ähnlich wie im App Store. Diese skalierbare Integration ermöglicht es dem Framework, sich dynamisch an das sich entwickelnde Betriebssystem anzupassen und die für offene Aufgaben erforderlichen multidimensionalen Fähigkeiten bereitzustellen.
Der MetaAgent mit der AgentToken-Strategie wurde entwickelt, um die wachsende Anzahl von Agenten effizient zu verwalten. Jeder integrierte Agent in AgentStore wird als lernbare Token-Einbettung in der Architektur des MetaAgenten dargestellt, ähnlich wie eine Worteinbettung. Während der Inferenz aktiviert der MetaAgent den entsprechenden Agenten zur Ausführung der Aufgabe, wenn ein Agenten-Token vorhergesagt wird. Dieser Ansatz wurde durch die Erweiterung von Einzel-Token- auf Multi-Token-Vorhersagen verbessert, wodurch der MetaAgent mehrere Agenten für die kollaborative Aufgabenausführung vorhersagen und koordinieren kann. Ein automatisierter Prozess mit Self-Instruct zur Abstimmung von AgentToken ohne manuelle Daten erhöht die Praktikabilität von AgentStore in realen Szenarien.
Evaluierung und Ergebnisse
Die Effektivität von AgentStore wurde durch umfangreiche Experimente in Betriebssystemumgebungen validiert. Auf dem anspruchsvollen OSWorld-Benchmark, einer realen Computerumgebung mit 369 Aufgaben, erreichte AgentStore eine Erfolgsquote von 23,85%, mehr als doppelt so hoch wie das bisher beste System (11,21%). Die Analyse unterstreicht die Bedeutung der Agentenintegration für die Erweiterung der Systemfähigkeiten. Ähnliche Ergebnisse wurden bei der Evaluierung von AgentStore in einer mobilen Umgebung erzielt, was die Anpassungsfähigkeit des Ansatzes für die Automatisierung von Aufgaben auf verschiedenen Betriebssystemplattformen demonstriert.
Fazit und Ausblick
AgentStore bietet eine vielversprechende Lösung für die Entwicklung spezialisierter, generalistischer Computerassistenten. Die skalierbare Plattform ermöglicht die dynamische Integration heterogener Agenten und die Anpassung an sich entwickelnde Betriebssystemumgebungen. Der MetaAgent mit der AgentToken-Strategie gewährleistet eine effiziente Verwaltung und Koordination der Agenten. Die erzielten Ergebnisse auf verschiedenen Benchmarks belegen die Leistungsfähigkeit und das Potenzial von AgentStore für die Automatisierung komplexer Computertasks und die Verbesserung der Mensch-Computer-Interaktion.
Bibliographie
https://arxiv.org/abs/2410.18603
https://arxiv.org/html/2410.18603v1
https://x.com/gm8xx8/status/1849824324208754704
https://www.chatpaper.com/chatpaper/paper/70887
http://paperreading.club/page?id=261784
https://synthical.com/article/AgentStore%3A-Scalable-Integration-of-Heterogeneous-Agents-As-Specialized-Generalist-Computer-Assistant-47c482d3-5089-4a04-b062-bdf1959418f8?
https://www.chatpaper.com/chatpaper/?id=2&date=1729785600&page=1
https://twitter.com/gm8xx8?lang=de
https://www.researchgate.net/publication/371462037_A_Comparative_Study_of_Modern_Operating_Systems_in_terms_of_Memory_and_Security_A_Case_Study_of_Windows_iOS_and_Android
https://academ.us/list/cs/