Das Wichtigste in Kürze
- Die Forschungsarbeit „InfiGUI-G1: Verbesserung der GUI-Grounding mit adaptiver Explorations-Policy-Optimierung“ präsentiert eine neue Methode zur Verbesserung der semantischen Ausrichtung von multimodalen großen Sprachmodellen (MLLMs) in der Mensch-Computer-Interaktion.
- Adaptive Exploration Policy Optimization (AEPO) adressiert die ineffiziente Exploration in bestehenden Reinforcement-Learning-Ansätzen, die die semantische Zuordnung von Befehlen zu den korrekten Elementen in grafischen Benutzeroberflächen (GUIs) behindert.
- AEPO erzielt durch eine Multi-Antwort-Generierungsstrategie und einen adaptiven Explorations-Reward (AER) signifikante Verbesserungen der Genauigkeit bei der semantischen Zuordnung in verschiedenen Benchmarks.
- Die entwickelten Modelle, InfiGUI-G1-3B und InfiGUI-G1-7B, erreichen State-of-the-Art-Ergebnisse und zeigen das Potential von AEPO für die Entwicklung robusterer und intelligenterer GUI-Agenten.
- Die Ergebnisse sind öffentlich zugänglich und die Modelle können über GitHub abgerufen werden.
Verbesserung der semantischen Zuordnung in GUI-Agenten durch adaptive Explorations-Policy-Optimierung
Herausforderungen bei der Interaktion mit grafischen Benutzeroberflächen
Die Entwicklung autonomer Agenten, die mit grafischen Benutzeroberflächen (GUIs) interagieren können, stellt eine bedeutende Herausforderung im Bereich der Künstlichen Intelligenz dar. Multimodale große Sprachmodelle (MLLMs) zeigen vielversprechende Ergebnisse, benötigen jedoch robuste Mechanismen, um natürliche Sprachbefehle korrekt auf die entsprechenden Elemente in der GUI zu beziehen – ein Prozess, der als „Grounding“ bezeichnet wird. Dieses Grounding umfasst zwei entscheidende Aspekte: die räumliche Ausrichtung (genaue Lokalisierung der Koordinaten eines UI-Elements) und die semantische Ausrichtung (Zuordnung des Befehls zum funktional korrekten UI-Element). Während Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) die räumliche Ausrichtung verbessert, bleibt die semantische Ausrichtung eine Herausforderung.
Ineffiziente Exploration als limitierender Faktor
Aktuelle Forschungsarbeiten zeigen, dass ineffiziente Exploration ein wesentlicher limitierender Faktor für die semantische Ausrichtung in MLLMs ist. Standard-Reinforcement-Learning-Methoden können in lokalen Optima stecken bleiben, die zwar eine hohe räumliche Genauigkeit aufweisen, aber semantisch falsch interpretiert werden. Dies führt zu einer unzureichenden Erkundung des Lösungsraums und verhindert das Erlernen komplexer semantischer Zusammenhänge.
Adaptive Exploration Policy Optimization (AEPO) – Ein neuer Ansatz
Um dieses Problem anzugehen, wurde die Adaptive Exploration Policy Optimization (AEPO) entwickelt. AEPO ist ein neuartiges Policy-Optimierungs-Framework, das die ineffiziente Exploration gezielt adressiert. Kern des Ansatzes ist eine Multi-Antwort-Generierungsstrategie. Das Modell generiert nicht nur eine einzige Antwort, sondern mehrere verschiedene Antwortkandidaten in einem einzigen Durchlauf. Diese Diversifizierung der Antworten fördert eine umfassendere Exploration des Lösungsraums.
Die Auswahl der besten Antwort wird durch einen neuartigen adaptiven Explorations-Reward (AER) gesteuert. Dieser AER basiert auf dem Effizienzprinzip η=U/C (Nutzen/Kosten) und belohnt das Modell nicht nur für die korrekte Antwort, sondern auch für die Effizienz der Suche. Eine korrekte Antwort mit hoher Konfidenz (niedriger Rang k unter den Kandidaten) und minimalem Aufwand (geringe Anzahl an Vorschlägen N) wird besonders belohnt.
Ergebnisse und Leistungsfähigkeit von InfiGUI-G1
Die mit AEPO trainierten Modelle, InfiGUI-G1-3B und InfiGUI-G1-7B, erzielen in verschiedenen Benchmarks, die die Generalisierung und das semantische Verständnis testen, State-of-the-Art-Ergebnisse. Im Vergleich zu einem naiven RLVR-Baseline konnten signifikante relative Verbesserungen von bis zu 9,0% erzielt werden. Diese Ergebnisse unterstreichen das Potential von AEPO zur Verbesserung der semantischen Zuordnung in GUI-Agenten. Die entwickelten Modelle und der Quellcode sind öffentlich zugänglich und stehen der Forschungsgemeinschaft zur Verfügung.
Ausblick und zukünftige Forschungsrichtungen
Die vorgestellten Ergebnisse zeigen den Erfolg von AEPO bei der Verbesserung der semantischen Ausrichtung in GUI-Agenten. Zukünftige Forschungsarbeiten könnten sich auf die Erweiterung des Ansatzes auf komplexere GUIs und die Integration von weiteren Modalitäten konzentrieren. Die Untersuchung des Einflusses verschiedener Parameter des AER und die Anwendung von AEPO auf andere Bereiche des maschinellen Lernens könnten ebenfalls vielversprechende Forschungsrichtungen sein. Die Verfügbarkeit des Quellcodes ermöglicht es der Forschungsgemeinschaft, die Ergebnisse zu reproduzieren und weiterzuentwickeln.
Schlussfolgerung
Die Arbeit zu InfiGUI-G1 liefert einen wichtigen Beitrag zur Verbesserung der Interaktion von KI-Agenten mit grafischen Benutzeroberflächen. Durch die Einführung von AEPO wird ein entscheidender Engpass bei der semantischen Zuordnung von Befehlen behoben, was zu deutlich verbesserten Ergebnissen in verschiedenen Benchmark-Tests führt. Die breite Verfügbarkeit der Ressourcen und Modelle fördert die weitere Forschung und Entwicklung in diesem dynamischen Feld.
Bibliographie
- https://arxiv.org/html/2504.14239v1
- https://www.researchgate.net/publication/391954605_GUI-G1_Understanding_R1-Zero-Like_Training_for_Visual_Grounding_in_GUI_Agents
- https://arxiv.org/html/2507.23779v1
- https://www.researchgate.net/publication/390991440_InfiGUI-R1_Advancing_Multimodal_GUI_Agents_from_Reactive_Actors_to_Deliberative_Reasoners
- https://huggingface.co/papers?q=goal%20reaching
- https://arxiv.org/abs/2508.05731