Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Autonome Agenten gewinnen zunehmend an Bedeutung für die Interaktion mit der realen Welt. Insbesondere Agenten auf Android-Geräten sind in letzter Zeit verstärkt in den Fokus der Forschung gerückt. Bisherige Studien zum Training und zur Evaluierung solcher Agenten mangelte es jedoch an einer systematischen Untersuchung sowohl von Open-Source- als auch von Closed-Source-Modellen. Ein neues Framework namens AndroidLab soll diese Lücke nun schließen.
AndroidLab bietet eine standardisierte Betriebsumgebung und einen Benchmark für Agenten, die mit Android-Geräten interagieren. Das Framework definiert grundlegende Betriebsmodi für große Sprachmodelle (LLMs) und große multimodale Modelle (LMMs), indem Aktionen und Objekte innerhalb verschiedener Beobachtungen des mobilen Systems – XML und Screenshots – abgeglichen werden. Diese werden als XML-Modus bzw. SoM-Modus (Set-of-Mark) bezeichnet. Zusätzlich führt AndroidLab zwei weitere Modi für jeden Basis-Modus ein: ReAct und SeeAct. Durch die Annotation von Knoteninformationen im XML für Screenshots mithilfe von Set-of-Mark wird sichergestellt, dass die Aktionen in allen Modi identisch sind, um einen fairen Vergleich zu ermöglichen.
Der AndroidLab-Benchmark umfasst 138 Aufgaben in neun verschiedenen Apps, die auf vordefinierten virtuellen Android-Geräten ausgeführt werden. Durch die Verwendung virtueller Geräte mit vorab festgelegten App-Betriebsverläufen und Offline-Daten gewährleistet AndroidLab Reproduzierbarkeit und eliminiert Abhängigkeiten von externen Netzwerken oder zeitlichen Faktoren. Im Gegensatz zu früheren Benchmarks, die oft standardisierte Operationssequenzen oder Gerätezustände als Bewertungsmetriken verwendeten, teilt AndroidLab jede Aufgabe in mehrere erforderliche Seitenzustände als Teilziele auf. Die korrekte Ausführung wird durch den Abgleich der UI-Baumstruktur überprüft. Dies ermöglicht eine präzise Bewertung des Aufgabenabschlusses und -fortschritts und erlaubt die Evaluierung nahezu aller Aufgaben, ohne durch die Einschränkungen von Systemzustandsdarstellungen begrenzt zu sein. Zusätzlich führt AndroidLab Metriken wie umgekehrte Redundanz und angemessene Operation ein, um die Effizienz der Aktionen zu bewerten.
Im Rahmen des Projekts wurden 17 Open-Source- und Closed-Source-Modelle mithilfe des AndroidLab-Benchmarks evaluiert. Während die GPT-Serie in beiden Modi (XML und SoM) Erfolgsraten von über 30% erreichte, zeigten Open-Source-Modelle deutlich schlechtere Ergebnisse, wobei das beste Modell nur eine Erfolgsrate von etwa 5% erzielte. Erste Versuche, die Leistung mobiler Agenten durch komplexere Reasoning-Frameworks zu verbessern, führten trotz deutlich erhöhter Inferenzzeiten nur zu marginalen Verbesserungen. Die Feinabstimmung kleiner Open-Source-Modelle könnte daher eine vielversprechende Strategie sein, um die Leistungslücke zu Closed-Source-Modellen zu schließen und die Zugänglichkeit mobiler Agenten zu verbessern.
Mithilfe der Betriebsmodi und des Aktionsraums von AndroidLab wurde das Android Instruct Dataset erstellt. Über ein Online-Annotationstool mit dem gleichen Aktionsraum wurden 10.500 Traces und 94.300 Schritte von Annotatoren gesammelt. Davon stammen 6208 Schritte aus den im AndroidLab-Benchmark enthaltenen Apps und wurden zum Finetuning der Modelle verwendet. Dieses Dataset umfasst Aufgaben, Telefonbildschirmzustände, XML-Informationen und Operationen. Es wurde verwendet, um sechs Text-only- und Multimodal-Modelle zu feinabstimmen. Die Feinabstimmung mit diesem Dataset erhöhte die durchschnittlichen Erfolgsraten von 4,59% auf 21,50% für LLMs und von 1,93% auf 13,28% für LMMs. Weitere Analysen zeigten, dass die Feinabstimmung die Genauigkeit und Effizienz der Operationen verbessert und die Redundanz bei Android-Agenten reduziert.
AndroidLab bietet ein vielversprechendes Framework für das Training und die Evaluierung autonomer Android-Agenten. Der Benchmark und das zugehörige Dataset ermöglichen eine systematische Untersuchung verschiedener Modelle und tragen dazu bei, die Entwicklung und den Einsatz autonomer Agenten auf mobilen Plattformen voranzutreiben. Die Ergebnisse der Evaluierung zeigen das Potenzial, aber auch die aktuellen Herausforderungen bei der Entwicklung leistungsfähiger mobiler Agenten. Die Feinabstimmung von Open-Source-Modellen mithilfe des Android Instruct Datasets stellt einen wichtigen Schritt dar, um die Leistungslücke zu Closed-Source-Modellen zu verringern und die Entwicklung autonomer Agenten für eine breitere Anwendergruppe zugänglich zu machen.
Bibliographie: https://arxiv.org/abs/2410.24024 https://www.researchgate.net/publication/385444045_AndroidLab_Training_and_Systematic_Benchmarking_of_Android_Autonomous_Agents https://arxiv.org/html/2410.24024v1 https://www.chatpaper.com/chatpaper/paper/72807 https://github.com/THUDM/Android-Lab https://www.aimodels.fyi/papers/arxiv/androidlab-training-systematic-benchmarking-android-autonomous-agents https://arxiv-sanity-lite.com/?rank=pid&pid=2410.24024 https://bytez.com/docs/arxiv/2410.24024/paper https://www.chatpaper.com/chatpaper/?id=2&date=1730390400&page=1 https://www.aimodels.fyi/papers/arxiv/androidworld-dynamic-benchmarking-environment-autonomous-agentsLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen