Neue Ansätze zur Verbesserung des Groundings von Computer-Nutzungs-Agenten durch menschliche Demonstrationen

Kategorien:

No items found.

Freigegeben:

November 12, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Die Entwicklung zuverlässiger Computer-Nutzungs-Agenten (CUAs) erfordert ein präzises "Grounding", also die genaue Verknüpfung von Anweisungen in natürlicher Sprache mit den korrekten Bildschirmelementen.
Desktop-Umgebungen stellen aufgrund ihrer Komplexität und Vielfalt besondere Herausforderungen für das Grounding dar.
GroundCUA ist ein neues, umfangreiches Datenset, das auf menschlichen Expertendemonstrationen basiert und über 3,56 Millionen handverifizierte Annotationen auf 56.000 Screenshots von 87 Desktop-Anwendungen umfasst.
Auf Basis von GroundCUA wurde die Modellfamilie GroundNext entwickelt, die in 3B- und 7B-Skalen durch überwachtes Fine-Tuning (SFT) und Reinforcement Learning (RL) trainiert wurde.
GroundNext erreicht in fünf Benchmarks, darunter ScreenSpotPro und OSWorld-G, Spitzenleistungen und übertrifft dabei oft Modelle, die mit wesentlich grösseren Datenmengen trainiert wurden.
Die Forschung unterstreicht die Bedeutung hochwertiger, von Experten kuratierter Datensätze für die Weiterentwicklung von universellen Computer-Nutzungs-Agenten.

Grundlagen für Computer-Nutzungs-Agenten: Neue Entwicklungen im Bereich des "Grounding" durch menschliche Demonstrationen

Die Vision von Computer-Nutzungs-Agenten (CUAs), die Software im Auftrag von Anwendern bedienen, hat in den letzten Jahren durch Fortschritte bei multimodalen, auf grossen Sprachmodellen basierenden Agenten erheblich an Bedeutung gewonnen. Diese Agenten versprechen, Routineaufgaben zu automatisieren und komplexe digitale Werkzeuge zugänglicher zu machen. Eine zentrale Herausforderung für den Erfolg solcher Agenten ist das sogenannte "Grounding": die Fähigkeit, Anweisungen in natürlicher Sprache präzise mit den richtigen Bildschirmelementen zu verknüpfen, die angeklickt, eingegeben oder gezogen werden sollen.

Die Herausforderung des Grounding in Desktop-Umgebungen

Das akkurate Grounding ist von entscheidender Bedeutung. Ohne die korrekte Identifizierung des richtigen Buttons oder Menüpunkts kann selbst ein perfekter Plan nicht ausgeführt werden. Dies führt schnell zu Fehlern und schliesslich zum Scheitern der Aufgabe. Besonders in Desktop-Anwendungen ist das Grounding komplex, da diese Umgebungen oft hochauflösende Displays mit dichten Layouts und visuell ähnlichen Elementen aufweisen. Zudem können Desktop-Anwendungen benutzerspezifische Artefakte enthalten, die während des Trainings nicht berücksichtigt wurden, was die Variabilität und ungesehene Kontexte erhöht. Die Erstellung automatisierter Datensätze für Desktop-Umgebungen mit umfassender Abdeckung erweist sich ebenfalls als schwierig.

GroundCUA: Ein neuer Ansatz für hochwertige Desktop-Daten

Um diese Lücke zu schliessen, wurde GroundCUA eingeführt, ein umfangreicher, von Menschen annotierter Datensatz für das Desktop-Grounding. Dieser Datensatz deckt 87 Anwendungen in 12 Kategorien ab und umfasst 56.000 Screenshots mit über 3,56 Millionen von Menschen verifizierten Annotationen aller Bildschirmelemente. Die Annotationen stammen aus Aufzeichnungen von Aufgaben, die von geschulten Annotatoren durchgeführt wurden, was eine hohe Qualität und dichte Beschriftung der Daten gewährleistet.

GroundCUA zeichnet sich im Vergleich zu bestehenden Datensätzen durch folgende Merkmale aus:

Umfang: 56.000 annotierte Screenshots und 3,56 Millionen Elemente.
Auflösung, Elementgrösse und Dichte: Hochauflösende Bilder mit maximaler Annotationsdichte, die nahezu jedes sichtbare Element, einschliesslich kleiner Icons und Bedienelemente, abdecken.
Expertenqualität: Von Menschen verifizierte Annotationen für hohe Genauigkeit.
Anwendungsvielfalt: 87 Desktop-Anwendungen für eine breite Abdeckung realer Szenarien.

Aus diesen Demonstrationen werden vielfältige Anweisungen generiert, die ein breites Spektrum realer Aufgaben abbilden und hochwertige Daten für das Modelltraining liefern.

Die GroundNext Modellfamilie: Effizientes Training mit überlegener Leistung

Auf der Grundlage von GroundCUA wurde die Modellfamilie GroundNext entwickelt, bestehend aus Vision-Language-Modellen in 3B- und 7B-Skalen. Diese Modelle sind für präzises Grounding in Desktop-Anwendungen konzipiert und werden in zwei Stufen trainiert: zuerst durch überwachtes Fine-Tuning (SFT) auf 700.000 kuratierten Datenpunkten aus GroundCUA und anschliessend durch Reinforcement Learning (RL) zur weiteren Verfeinerung der Leistung.

GroundNext erreicht in fünf Schlüssel-Benchmarks, darunter ScreenSpotPro, OSWorld-G und UI-Vision, Spitzenleistungen. Bemerkenswert ist, dass GroundNext diese Ergebnisse mit weniger als einem Zehntel der Trainingsdaten früherer Arbeiten erzielt (700.000 gegenüber 9 Millionen Datenpunkten bei Modellen wie JEDI). Dies deutet darauf hin, dass hochwertige, gut kuratierte Daten eine höhere Effizienz im Training ermöglichen.

Die RL-Phase verbessert die Grounding-Genauigkeit weiter, ohne auf komplexe Belohnungsstrategien angewiesen zu sein, wie sie oft in anderen RL-getunten Modellen zum Einsatz kommen. Dies unterstreicht die Effektivität der Kombination von SFT mit hochwertigen Daten.

Ergebnisse und Analyse

Die Leistungsanalyse zeigt, dass GroundNext-3B nicht nur seine 3B-Pendants deutlich übertrifft, sondern auch viele grössere Modelle, einschliesslich OpenCUA-72B und proprietäre APIs, in agentischen, mehrstufigen Aufgaben auf dem OSWorld-Verified-Benchmark übertrifft oder mit ihnen gleichzieht. Dies demonstriert den praktischen Nutzen der 3B-Modelle für ressourcenbeschränkte Systeme.

GroundNext zeigt zudem eine starke Cross-Plattform-Generalisierung. Obwohl es ausschliesslich auf Desktop-Datensätzen trainiert wurde, erzielt es auch in mobilen und Web-Umgebungen gute Ergebnisse, wie Benchmarks wie MMBench-GUI und ScreenSpot-v2 zeigen.

Die Analyse der RL-Verbesserungen deutet darauf hin, dass Modelle, die während des SFT bereits mit GroundCUA trainiert wurden, geringere Leistungssteigerungen durch RL erfahren. Dies liegt daran, dass GroundCUA bereits eine sehr informative Supervision bietet und weniger Fehler für RL zu korrigieren sind. Die Grösse der RL-Verbesserungen korreliert mit der anfänglichen SFT-Leistung: Stärkere SFT-Modelle erzielen kleinere absolute Gewinne, da sie mit weniger verbleibenden Fehlern starten.

Agentische Fähigkeiten

In einem agentischen Setting, das die Fähigkeit von GroundNext zur Bewältigung realistischer, mehrstufiger Aufgaben bewertet, zeigt sich eine bemerkenswerte Leistung. Auf dem OSWorld-Verified-Benchmark, in Kombination mit dem o3-Planer, übertrifft GroundNext-3B (50,6% Gesamt) signifikant Modelle wie OpenCUA-A3B (17,7%) und Kimi-VL-A3B (10,3%). Es übertrifft auch grössere Modelle wie OpenCUA-72B (46,1%) und proprietäre APIs wie Qwen3-VL-Flash (41,6%) und Claude-4-Sonnet (41,4%). Das 3B-Modell erreicht dabei vergleichbare Ergebnisse wie das wesentlich grössere JEDI-7B (50,6% vs. 51,0%) und zeigt in drei von fünf Kategorien (OS, Office, Workflow) eine überlegene Leistung. Dies unterstreicht die hohe praktische Effizienz und Nützlichkeit von GroundNext-3B für reale agentische Systeme.

Vorteile durch GroundCUA

GroundCUA führt zu den grössten Leistungssteigerungen bei Desktop-Benchmarks, da es hauptsächlich Desktop-Software abdeckt. GroundNext-7B (RL) erzielt die besten Ergebnisse bei UI-V, OSW-G und SSPro. Bei gemischten Datensätzen wie MMBench-GUI zeigt GroundNext eine Verbesserung von 3,66% auf Desktop-Plattformen gegenüber dem zweitbesten Modell, InfiGUI-G1, mit deutlichen Gewinnen unter Linux und macOS. Besonders hervorzuheben sind die Verbesserungen bei der Icon-Erkennung, wo GroundNext die meisten Modelle um durchschnittlich 10,7% auf SSPro übertrifft. Dies ist auf die hohe Dichte von Icons in Desktop-Anwendungen und die Vielfalt in GroundCUA zurückzuführen.

Generalisierung über Domänen hinweg

Die Generalisierungsfähigkeit von GroundNext, das primär auf Desktop-Software trainiert wurde, auf mobile und Web-Schnittstellen wurde ebenfalls untersucht. Auf MMBench-GUI erzielt GroundNext-7B (RL) wettbewerbsfähige Ergebnisse in beiden Domänen (89,2% mobil, 81,9% Web). Obwohl GroundCUA eine starke domänenübergreifende Generalisierung ermöglicht, könnte die Ergänzung von Desktop-Daten mit Web- und mobilen Quellen die Leistung weiter verbessern.

Effekte quelloffener Anwendungen

Die Verwendung quelloffener Software in GroundCUA trägt zu starken Ergebnissen bei, insbesondere bei der Icon-Erkennung in den Kategorien Office Suite, Development, Creative, Scientific und CAD. Die Vielfalt quelloffener Entwicklungswerkzeuge und Kreativsoftware führt zu signifikanten Verbesserungen, beispielsweise übertrifft das Modell das nächstbeste Modell, InfiGUI-G1-7B, um 15,9% in "Development" und 8,4% in "Creative" bei der Icon-Genauigkeit. Dies deutet darauf hin, dass die Wahl quelloffener Anwendungen in GroundCUA eine breite Anwendbarkeit und robuste Leistung ermöglicht.

Fazit und Ausblick

GroundCUA stellt einen bedeutenden Fortschritt im Bereich des Desktop-Grounding dar. Durch die Bereitstellung eines umfangreichen, von Menschen annotierten Datensatzes und die Entwicklung der GroundNext-Modellfamilie wird gezeigt, dass hochwertige Daten eine effektivere Grundlage für zuverlässiges Desktop-Grounding bilden als die reine Datenmenge. Die Veröffentlichung des Datensatzes und der Forschungsartefakte soll die Forschung im Bereich des Grounding fördern und die Entwicklung von End-to-End-Computer-Nutzungs-Agenten ermöglichen, die komplexe Aufgaben über diverse Desktop-Anwendungen hinweg ausführen können.

Trotz dieser Fortschritte bleiben Herausforderungen bestehen. Der Datensatz könnte die Vielfalt der Desktop-Software noch nicht vollständig abbilden und statische UI-Zustände erfassen, während dynamische Elemente unberücksichtigt bleiben. Auch die Skalierbarkeit der menschlichen Annotation ist ein begrenzender Faktor. Zukünftige Arbeiten könnten die Entwicklung präziserer und ausdrucksstärkerer Belohnungssignale für RL untersuchen und die Generalisierung über Domänen hinweg weiter verbessern, indem Desktop-Daten mit Web- und mobilen Quellen kombiniert werden. Die in GroundCUA enthaltenen Metadaten auf Plattform- und Kategorieebene bieten zudem Ansatzpunkte für die Forschung im Bereich des kontinuierlichen Lernens und der Anpassung an neue Anwendungen und Interaktionsparadigmen.

Bibliography

- Feizi, A., Nayak, S., Jian, X., Lin, K. Q., Li, K., Awal, R., ... & Rajeswar, S. (2024). Grounding Computer Use Agents on Human Demonstrations. arXiv preprint arXiv:2511.07332. - ServiceNow Forschungsabteilung. (2025). ServiceNow/GroundCUA. GitHub. Verfügbar unter: https://github.com/ServiceNow/GroundCUA - Gou, B., Wang, R., Zheng, B., Xie, Y., Chang, C., Shu, Y., ... & Su, Y. (2024). Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents. arXiv preprint arXiv:2410.05243. - Wang, X., Wang, B., Lu, D., Yang, J., Xie, T., Wang, J., ... & Yu, T. (2025). OpenCUA: Open Foundations for Computer-Use Agents. Verfügbar unter: https://opencua.xlang.ai/ - Liu, Y., Wang, Z., Chen, H., Sun, X., Yu, X., Wu, J., ... & Chang, S. (2025). Learning from Online Videos at Inference Time for Computer-Use Agents. arXiv preprint arXiv:2511.04137. - Li, Y., Hultquist, H., Wagle, J., & Koishida, K. (2025). Instruction Agent: Enhancing Agent with Expert Demonstration. arXiv preprint arXiv:2509.07098. - Liu, Y. (2025). A new human-computer interaction paradigm: Agent interaction model based on large models and its prospects. Virtual Reality & Intelligent Hardware, 7(3), 237-266. - Rijo, L. (2025). AI agents complete human work 88% faster but with significant quality gaps, new study finds. PPC Land. Verfügbar unter: https://ppc.land/ai-agents-complete-human-work-88-faster-but-with-significant-quality-gaps-new-study-finds/