KI für Ihr Unternehmen – Jetzt Demo buchen

Bewertung multimodaler Betriebssystemagenten in der Windows Agent Arena

Kategorien:
No items found.
Freigegeben:
September 13, 2024

Artikel jetzt als Podcast anhören

Evaluierung von Multi-Modalen OS-Agenten in Windows Agent Arena

Evaluierung von Multi-Modalen OS-Agenten in Windows Agent Arena

Einführung

Große Sprachmodelle (LLMs) zeigen bemerkenswertes Potenzial, als Computeragenten zu agieren und die menschliche Produktivität sowie die Zugänglichkeit von Software in multimodalen Aufgaben zu verbessern, die Planung und logisches Denken erfordern. Die Messung der Leistung dieser Agenten in realistischen Umgebungen stellt jedoch eine Herausforderung dar. Die meisten Benchmarks sind entweder auf spezifische Modalitäten oder Domänen beschränkt (z.B. Text-Only, Webnavigation, Q&A, Codierung) und vollständige Benchmark-Bewertungen sind aufgrund der mehrstufigen sequentiellen Natur der Aufgaben langsam und können Tage in Anspruch nehmen.

Windows Agent Arena: Eine Lösung für die Evaluierung

Um diese Herausforderungen anzugehen, wurde die Windows Agent Arena (WAA) eingeführt. Diese reproduzierbare, allgemeine Umgebung konzentriert sich ausschließlich auf das Windows-Betriebssystem, in dem Agenten frei innerhalb eines realen Windows-OS operieren können. Sie nutzen dieselben Anwendungen, Werkzeuge und Webbrowser, die auch menschlichen Nutzern zur Verfügung stehen, um Aufgaben zu lösen. Die Umgebung adaptiert das OSWorld-Framework (Xie et al., 2024) und bietet über 150 verschiedene Windows-Aufgaben in repräsentativen Domänen, die die Fähigkeiten der Agenten in Planung, Bildschirmverständnis und Werkzeugnutzung erfordern.

Skalierbarkeit und Effizienz

Das Benchmarking in der Windows Agent Arena ist skalierbar und kann nahtlos in Azure parallelisiert werden, um eine vollständige Benchmark-Bewertung in nur 20 Minuten zu ermöglichen. Dies stellt eine erhebliche Verbesserung gegenüber früheren Benchmarks dar, die Tage dauern konnten.

Der Multi-Modale Agent Navi

Um die Fähigkeiten der Windows Agent Arena zu demonstrieren, wurde ein neuer multimodaler Agent namens Navi eingeführt. Dieser Agent erzielte eine Erfolgsquote von 19,5% im Windows-Domänenvergleich, während ein unassistierter Mensch 74,5% erreichte. Navi zeigt auch starke Leistungen in einem anderen beliebten webbasierten Benchmark, Mind2Web. Eine umfassende quantitative und qualitative Analyse von Navis Leistung bietet Einblicke in die Herausforderungen und Möglichkeiten für zukünftige Forschung in der Agentenentwicklung und Datengenerierung unter Verwendung der Windows Agent Arena.

Aufgaben und Evaluierung in der Windows Agent Arena

Die initiale Veröffentlichung der Windows Agent Arena umfasst 154 diverse Aufgaben, die typische Benutzerarbeitslasten innerhalb des Windows-OS repräsentieren. Dazu gehören:

- Bearbeitung von Dokumenten und Tabellenkalkulationen (LibreOffice Calc/Writer) - Internetsurfen (Microsoft Edge, Google Chrome) - Windows-Systemaufgaben (Datei-Explorer, Einstellungen) - Codierung (Visual Studio Code) - Video ansehen (VLC Player) - Utility-Funktionen (Notepad, Uhr, Paint)

Die Auswertung der Aufgaben erfolgt deterministisch, wobei benutzerdefinierte Skripte verwendet werden, um am Ende jeder Episode eine Belohnung zu generieren.

Parallelisierung in Azure

Die Infrastruktur hinter der Windows Agent Arena unterstützt flexible, lokale Ausführung während der Prototyping-Phase sowie skalierbare und sichere Cloud-Parallelisierung in Azure. Der Kern unseres Systems ist ein Docker-Container, der die Windows 11 VM hostet. Innerhalb des Containers wird ein Client-Prozess für die Aufgabenplanung und -konfiguration sowie der Agent und die Bewertungsskripte bereitgestellt. Die VM dient als Hauptsimulationsumgebung, wobei ein Python Flask-Server als Brücke zwischen dem Container und der VM fungiert, indem er Befehle von den Client-Prozessen empfängt und innerhalb der VM ausführt und Beobachtungen und Dateien an den Client zurücksendet.

Ergebnisse und Erkenntnisse

Wir benchmarken mehrere State-of-the-Art-Modelle für visuelle Sprachmodelle. Dabei stellen wir fest, dass alle vorhandenen Modelle im Vergleich zum menschlichen Verhalten eine geringe Leistung erzielen, wobei große Unterschiede zwischen den Domänen bestehen. Die Qualität der Set-of-Marks spielt eine entscheidende Rolle für die Leistung des Agenten. Agenten, die ausschließlich auf pixelbasierte OCR und Symbolerkennung angewiesen sind, erzielen eine geringere Leistung als diejenigen, die auch den UIA-Baum verwenden. Wir stellen auch fest, dass die Symbolbeschriftungsfähigkeit von Omniparser die Leistung steigert.

Schlussfolgerung

Die Windows Agent Arena bietet eine innovative und skalierbare Umgebung zur Bewertung von Multi-Modalen OS-Agenten. Mit der Einführung des Agenten Navi und der umfassenden Analyse seiner Leistung haben wir wertvolle Einblicke in die aktuellen Fähigkeiten und Herausforderungen von OS-Agenten gewonnen. Diese Arbeit legt den Grundstein für zukünftige Forschung und Entwicklung in diesem Bereich und unterstreicht das Potenzial von LLMs, die menschliche Produktivität und Softwarezugänglichkeit weiter zu verbessern.

Bibliographie

- https://microsoft.github.io/WindowsAgentArena/ - https://github.com/microsoft/WindowsAgentArena - https://aclanthology.org/2024.acl-long.50.pdf - https://arxiv.org/abs/2401.13649 - https://arxiv-sanity-lite.com/?rank=pid&pid=2402.17553 - https://github.com/showlab/Awesome-GUI-Agent - https://arxiv.org/html/2401.13649v2 - https://arxiv-sanity-lite.com/?rank=pid&pid=2401.13649 - https://medium.com/@techsachin/benchmarking-multimodal-agents-for-open-ended-tasks-in-real-computer-environments-ef338142c9c1 - https://openreview.net/forum?id=zAdUB0aCTQ
Was bedeutet das?
Mindverse vs ChatGPT Plus Widget

Warum Mindverse Studio?

Entdecken Sie die Vorteile gegenüber ChatGPT Plus

Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.

🚀 Mindverse Studio

Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.

ChatGPT Plus

❌ Kein strukturierter Dokumentenvergleich

❌ Keine Bearbeitung im Dokumentkontext

❌ Keine Integration von Unternehmenswissen

VS

Mindverse Studio

✅ Gezielter Dokumentenvergleich mit Custom-Prompts

✅ Kontextbewusste Textbearbeitung im Editor

✅ Wissensbasierte Analyse & Zusammenfassungen

📚 Nutzen Sie Ihr internes Wissen – intelligent und sicher

Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.

ChatGPT Plus

❌ Nur ein Modellanbieter (OpenAI)

❌ Keine Modellauswahl pro Use Case

❌ Keine zentrale Modellsteuerung für Teams

VS

Mindverse Studio

✅ Zugriff auf über 50 verschiedene KI-Modelle

✅ Modellauswahl pro Prompt oder Assistent

✅ Zentrale Steuerung auf Organisationsebene

🧠 Zugang zu allen führenden KI-Modellen – flexibel & anpassbar

OpenAI GPT-4: für kreative Texte und allgemeine Anwendungen
Anthropic Claude: stark in Analyse, Struktur und komplexem Reasoning
Google Gemini: ideal für multimodale Aufgaben (Text, Bild, Code)
Eigene Engines: individuell trainiert auf Ihre Daten und Prozesse

ChatGPT Plus

❌ Keine echte Teamkollaboration

❌ Keine Rechte- oder Rollenverteilung

❌ Keine zentrale Steuerung oder Nachvollziehbarkeit

VS

Mindverse Studio

✅ Teamübergreifende Bearbeitung in Echtzeit

✅ Granulare Rechte- und Freigabeverwaltung

✅ Zentrale Steuerung & Transparenz auf Organisationsebene

👥 Kollaborative KI für Ihr gesamtes Unternehmen

Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.

Bereit für den nächsten Schritt?

Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.

🎯 Kostenlose Demo buchen

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
Herzlichen Dank! Deine Nachricht ist eingegangen!
Oops! Du hast wohl was vergessen, versuche es nochmal.

🚀 Neugierig auf Mindverse Studio?

Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

🚀 Demo jetzt buchen