CUA-Gym: Innovative Plattform zur Entwicklung von Daten für Computer-Use Agents

Kategorien:

No items found.

Freigegeben:

May 26, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Der schnelle Überblick:

CUA-Gym ist eine neue Plattform für die Entwicklung und Evaluierung von Computer-Use Agents (CUAs).
Sie adressiert den Mangel an skalierbaren Trainingsdaten mit verifizierbaren Belohnungen (RLVR).
CUA-Gym nutzt einen Pipeline-Ansatz mit Generator- und Diskriminator-Agenten zur Co-Generierung von Aufgabenanweisungen, Umgebungszuständen und Belohnungsfunktionen.
Ein finaler Filter gewährleistet die Datenqualität durch LLM-Mehrheitsentscheidungen und Agenten-Rollouts.
CUA-Gym-Hub erweitert die Trainingsumgebungen durch hochauflösende Mock-Webanwendungen basierend auf realen Nutzungsmustern.
Das resultierende Dataset umfasst 32.112 verifizierte RLVR-Trainings-Tupel in 110 Umgebungen.
Modelle, die mit CUA-Gym trainiert wurden, zeigen signifikante Leistungssteigerungen und eine verbesserte Übertragbarkeit auf neue Umgebungen.

Sehr geehrte Leserinnen und Leser,

die Entwicklung von Künstlicher Intelligenz, die in der Lage ist, Computer autonom zu bedienen, sogenannte Computer-Use Agents (CUAs), schreitet stetig voran. Diese Agenten versprechen, die Interaktion mit digitalen Umgebungen zu revolutionieren und komplexe Arbeitsabläufe zu automatisieren. Eine zentrale Herausforderung in diesem Forschungsfeld stellt jedoch der Mangel an umfangreichen und qualitativ hochwertigen Trainingsdaten dar, insbesondere im Kontext des Reinforcement Learning mit verifizierbaren Belohnungen (RLVR).

CUA-Gym: Eine Antwort auf die Datenknappheit

Ein kürzlich vorgestelltes Projekt, CUA-Gym, widmet sich dieser Problematik, indem es eine skalierbare Lösung für die Generierung von Trainingsumgebungen und Aufgaben für Computer-Use Agents bereitstellt. Ziel ist es, die Entwicklung robuster und übertragbarer CUAs zu fördern, die in der Lage sind, eine Vielzahl von Anwendungen und Plattformen zu meistern.

Die Notwendigkeit verifizierbarer Trainingsdaten

RLVR hat in Bereichen wie Mathematik, Werkzeugnutzung und Softwareentwicklung bereits bemerkenswerte Erfolge erzielt. Die Übertragung dieser Erfolge auf CUAs wird jedoch durch die Schwierigkeit erschwert, skalierbare Trainingsdaten mit deterministischen Belohnungen zu erstellen. Solche Daten erfordern konsistente Aufgabenanweisungen, ausführbare Umgebungen und verifizierbare Belohnungsmechanismen. Bestehende handkuratierte Benchmarks bieten zwar eine hohe Belohnungsgenauigkeit, decken aber nur wenige Anwendungen ab. Datensätze, die auf großen Sprachmodellen (LLMs) als Richter basieren, sind zwar weit verbreitet, lassen aber eine zuverlässige Verifizierung oft vermissen.

Der innovative Pipeline-Ansatz von CUA-Gym

CUA-Gym begegnet diesen Herausforderungen mit einem skalierbaren Pipeline-Ansatz, der Aufgabenanweisungen, Umgebungszustände und Belohnungsfunktionen ko-generiert. Dieser Prozess involviert zwei Hauptakteure:

Generator-Agent: Dieser Agent ist für die Erstellung der initialen und der sogenannten "Golden Environment States" verantwortlich.
Diskriminator-Agent: Ein separater Diskriminator-Agent entwickelt die Belohnungsfunktion basierend auf der Aufgabenspezifikation.

Ein Orchestrator-Agent steuert die iterative Interaktion zwischen Generator und Diskriminator, um die Qualität der generierten Daten kontinuierlich zu verbessern. Nach dieser initialen Generierung durchlaufen die resultierenden Tupel einen finalen Filter. Dieser Filter kombiniert eine Mehrheitsentscheidung von LLMs mit Agenten-Rollouts, um eine hohe Qualität und Zuverlässigkeit der Daten zu gewährleisten, die über die adversarielle Schleife pro Aufgabe hinausgeht.

Erweiterung der Trainingsumgebungen mit CUA-Gym-Hub

Um die knappen Trainingsumgebungen weiter zu skalieren, synthetisiert CUA-Gym zudem den CUA-Gym-Hub. Hierbei handelt es sich um eine umfassende Suite von hochauflösenden Mock-Webanwendungen, die auf realen Softwarenutzungsverteilungen basieren. Diese Erweiterung vergrößert den Umfang der CUA-RLVR-Daten erheblich und trägt dazu bei, die Vielfalt der Trainingsszenarien zu erhöhen.

Das CUA-Gym Dataset und seine Leistungsfähigkeit

Durch diesen umfassenden Pipeline-Ansatz wurde CUA-Gym zu einem Datensatz von 32.112 verifizierten RLVR-Trainings-Tupeln, die in 110 verschiedenen Umgebungen verankert sind. Die auf CUA-Gym trainierten Modelle, namentlich CUA-Gym-A3B und CUA-Gym-A17B, erreichen in Benchmarks wie OSWorld-Verified beeindruckende Erfolgsraten von 62,1 % bzw. 72,6 %. Diese Ergebnisse übertreffen die Leistung früherer Open-Source-CUAs vergleichbarer Größenordnung und zeigen eine reibungslose Skalierung der Leistung sowohl mit dem Datenvolumen als auch mit der Umgebungsvielfalt.

Ein weiterer bemerkenswerter Aspekt ist die Übertragbarkeit der Modelle. Dieselben Checkpoints, die auf CUA-Gym trainiert wurden, zeigen auch Verbesserungen im unabhängigen WebArena-Benchmark. Dies deutet auf eine erfolgreiche Generalisierung der gelernten Fähigkeiten über die ursprünglichen Trainingsumgebungen hinaus hin.

Bedeutung für die Zukunft der Computer-Use Agents

Die Arbeit an CUA-Gym stellt einen wichtigen Schritt zur Demokratisierung der Forschung an Computer-Use Agents dar. Durch die Bereitstellung eines umfassenden Open-Source-Frameworks, eines großen Datensatzes und leistungsfähiger Modelle wird die Forschungsgemeinschaft in die Lage versetzt, die Fähigkeiten, Grenzen und Risiken von CUAs besser zu untersuchen. Dies ist von entscheidender Bedeutung, da diese Agenten zunehmend digitale Interaktionen vermitteln und weitreichende Entscheidungen in unserem Namen treffen werden.

Die Vision von intelligenten Agenten, die Hand in Hand mit Menschen am Computer arbeiten, unsere Ziele verstehen, Schnittstellen navigieren und komplexe Arbeitsabläufe ausführen können, rückt durch solche Fortschritte in greifbare Nähe. CUA-Gym trägt dazu bei, diese Vision zu verwirklichen, indem es die notwendige Infrastruktur für die Entwicklung der nächsten Generation von vielseitigen Computer-Use Agents schafft.

Fazit

CUA-Gym repräsentiert einen bedeutsamen Fortschritt in der Forschung und Entwicklung von Computer-Use Agents. Durch die innovative Kombination aus automatisierter Datengenerierung, verifizierbaren Belohnungsmechanismen und der Schaffung vielfältiger Trainingsumgebungen adressiert es zentrale Herausforderungen in diesem aufstrebenden Feld. Die erzielten Leistungsverbesserungen und die nachgewiesene Übertragbarkeit der Modelle unterstreichen das Potenzial dieses Ansatzes, die Entwicklung von autonomen Computer-Use Agents maßgeblich voranzutreiben.

Die Open-Source-Bereitstellung der gesamten Synthese-Pipeline, des Datensatzes, der CUA-Gym-Hub-Umgebungen und der Modelle wird der Forschungsgemeinschaft neue Möglichkeiten eröffnen, die Grundlagen für zukünftige CUA-Entwicklungen zu legen.

Wir danken Ihnen für Ihr Interesse an dieser wichtigen Entwicklung.

Mit freundlichen Grüßen,

Ihr Redaktionsteam von Mindverse

Bibliography: - xlangai/CUA-Gym · Datasets at Hugging Face. (n.d.). Retrieved from https://huggingface.co/datasets/xlangai/CUA-Gym - Tasks | Cua. (n.d.). Retrieved from https://cua.ai/docs/cuabench/guide/fundamentals/tasks - cua-bench: A Framework for Benchmarking, Training Data, and RL Environments for Computer-Use Agents. (n.d.). Retrieved from https://huggingface.co/blog/cua-ai/cua-bench - Paper page - Gym-Anything: Turn any Software into an Agent Environment. (n.d.). Retrieved from https://huggingface.co/papers/2604.06126 - Gym-Anything: Turn Any Software into an Agent Environment. (n.d.). Retrieved from https://cmu-l3.github.io/gym-anything/ - Computer-Use Agents as Judges for Generative User Interface. (n.d.). Retrieved from https://arxiv.org/html/2511.15567v1 - trycua/cua. (n.d.). Retrieved from https://github.com/trycua/cua - Paper page - ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data. (n.d.). Retrieved from https://huggingface.co/papers/2509.15221 - CUA-Suite: Massive Human-annotated Video Demonstrations for Computer-Use Agents. (n.d.). Retrieved from https://arxiv.org/html/2603.24440 - [2508.09123v3] OpenCUA: Open Foundations for Computer-Use Agents. (n.d.). Retrieved from https://arxiv.org/abs/2508.09123v3