Die Zukunft der KI-Assistenten: VideoWebArena – Ein neuer Benchmark für multimodal agierende KI-Systeme
Videos dienen uns Menschen oft als Informationsquelle für die Erledigung von Aufgaben, sei es zum Lernen aus Tutorials oder zum Abrufen spezifischer Informationen. Mit der Entwicklung von KI-Assistenten wird es zunehmend wichtiger, dass auch diese multimodalen Agenten Videos verstehen und verarbeiten können, um Aufgaben zu erledigen, Arbeitsabläufe zu erlernen, zu planen und Entscheidungen zu treffen.
Videos bieten im Vergleich zu Text und statischen Bildern eine Fülle an Informationen, da sie räumliche und zeitliche Dynamiken erfassen. Die Integration von Videos in multimodale Modelle bringt jedoch besondere Herausforderungen mit sich, wie die zeitliche Kohärenz, die Kontexterhaltung und das effiziente Abrufen von Informationen über lange Sequenzen. Diese Herausforderungen werden noch verstärkt, wenn Modelle als autonome Agenten in komplexen Umgebungen eingesetzt werden. In solchen Szenarien ist die Fähigkeit von Modellen, Langzeitgedächtnis zu bewahren, Informationen abzurufen und sich kontinuierlich an neue Informationen anzupassen, entscheidend für Aufgaben, die ein dauerhaftes Engagement erfordern.
Die jüngsten Fortschritte im Verständnis langer Kontexte von großen videofähigen Vision Language Models (z. B. LLaVaNeXt, LongVILA) ermöglichen es Agenten, mehr Informationen als zuvor zu verarbeiten und zu verstehen, einschließlich langer Videos. Aus evaluativer Sicht besteht jedoch weiterhin eine erhebliche Lücke bei bestehenden Benchmarks, die die Fähigkeiten dieser Modelle in verschiedenen multimodalen Szenarien umfassend bewerten können, insbesondere bei Videoeingaben. Da Agenten über verschiedene Modalitäten und Zeitrahmen hinweg agieren müssen, ist die Entwicklung und korrekte Evaluierung von multimodalen Modellen mit langem Kontext unerlässlich. Bestehende Benchmarks konzentrieren sich oft nur auf eine Komponente, wie das Abrufen von Informationen oder das Navigieren auf Webseiten. Dies schränkt unser Verständnis davon ein, wie gut multimodale Modelle mit langem Kontext in realen Umgebungen als Agenten funktionieren können.
Um diese Lücke zu schließen, wurde VideoWebArena entwickelt, ein neuer Open-Source-Benchmark auf Videobasis. VideoWebArena bewertet die Fähigkeit multimodaler Modelle, Videoeingaben mit langem Kontext zu verarbeiten, zu verstehen und zu nutzen, um verschiedene Aufgaben zu erledigen. Der Benchmark umfasst 2.021 Aufgaben und etwa vier Stunden Videomaterial. Die Aufgaben lassen sich in zwei Hauptkategorien einteilen: *Skill Retention* und *Factual Retention*. Skill-Retention-Aufgaben bewerten, ob ein Agent eine vorgegebene menschliche Demonstration nutzen kann, um eine Aufgabe effizient zu erledigen. Factual-Retention-Aufgaben bewerten, ob ein Agent instruktionsrelevante Informationen aus einem Video abrufen kann, um eine Aufgabe zu erledigen.
Erste Ergebnisse mit State-of-the-Art-Modellen wie GPT-4o und Gemini 1.5 Pro zeigen, dass diese zwar in begrenztem Umfang als videofähige Agenten dienen können, aber noch weit von menschlicher Leistung entfernt sind. Dies verdeutlicht eine große Lücke in den Fähigkeiten aktueller Modelle im Bereich des Informationsabrufs und der Handlungsfähigkeit im Umgang mit Videos. Die besten Modelle erreichen derzeit eine Erfolgsquote von 13,3 % bei Factual-Retention-Aufgaben und 45,8 % bei den dazugehörigen Frage-Antwort-Paaren. Im Vergleich dazu liegt die menschliche Leistung bei 73,9 % bzw. 79,3 %. Bei Skill-Retention-Aufgaben schneiden Modelle mit langem Kontext mit Tutorials schlechter ab als ohne, mit einem Leistungsrückgang von 5 % bei WebArena-Aufgaben und 10,3 % bei VisualWebArena-Aufgaben.
VideoWebArena bietet eine wichtige Grundlage für die zukünftige Entwicklung von KI-Agenten, die Videos verstehen und verarbeiten können. Der Benchmark ermöglicht es Forschern, die Stärken und Schwächen aktueller Modelle zu identifizieren und gezielt an Verbesserungen zu arbeiten. Die Ergebnisse unterstreichen die Notwendigkeit, die Handlungsfähigkeit von multimodalen Modellen mit langem Kontext zu verbessern, und bieten eine Testumgebung für zukünftige Entwicklungen mit Videoagenten.
Bibliographie
Jang, L., Li, Y., Ding, C., Lin, J., Liang, P. P., Zhao, D., Bonatti, R., & Koishida, K. (2024). VideoWebArena: Evaluating Long Context Multimodal Agents with Video Understanding Web Tasks. *arXiv preprint arXiv:2410.19100*.
Koh, J. Y., Lo, R., Jang, L., Duvvur, V., Lim, M. C., Huang, P.-Y., Neubig, G., Zhou, S., Salakhutdinov, R., & Fried, D. (2024). VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks.