Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Automatisierung komplexer digitaler Aufgaben über verschiedene Plattformen hinweg stellt eine fortlaufende Herausforderung in der künstlichen Intelligenz dar. In diesem Kontext hat die Entwicklung von GUI-Agenten (Graphical User Interface Agents) erhebliche Fortschritte gemacht. Ein aktueller Beitrag zu diesem Feld ist die Einführung von GUI-Owl-1.5, einem Modell, das als Teil der Mobile-Agent-v3.5 Familie vorgestellt wird. Dieses Modell zielt darauf ab, die Interaktion mit grafischen Benutzeroberflächen auf Desktops, Mobilgeräten und in Browsern zu revolutionieren.
GUI-Owl-1.5 ist ein multimodales GUI-Agentenmodell, das in verschiedenen Größen (von 2 Milliarden bis 235 Milliarden Parametern) verfügbar ist. Es wurde entwickelt, um überlegene Leistungen in einer Reihe von GUI-bezogenen Aufgaben zu erzielen, darunter die Automatisierung von Prozessen, das "Grounding" (das Zuordnen von Spracheingaben zu visuellen Elementen), die Nutzung von Tools und die Verwaltung von Gedächtnis und Wissen. Die Kerninnovationen des Modells liegen in seiner Datenpipeline, der Verbesserung der Argumentationsfähigkeiten und einer skalierbaren Reinforcement-Learning-Methode für Multi-Plattform-Umgebungen.
Das Fundament von GUI-Owl-1.5 bildet eine erweiterte Version des GUI-Owl-Modells, das auf einer Vision-Language-Architektur basiert. Im Vergleich zu seinen Vorgängern bietet GUI-Owl-1.5 einen breiteren Aktionsraum, verbesserte Kontexterhaltung und ein optimiertes Design für die Generierung synthetischer Daten, plattformübergreifende Anpassung und erweiterte Agentenfähigkeiten.
Ein zentraler Aspekt für die Leistungsfähigkeit von GUI-Owl-1.5 ist die hybride Datenpipeline, auch als "Hybrid Data Flywheel" bezeichnet. Diese Pipeline kombiniert simulierte Umgebungen mit Cloud-basierten Sandbox-Umgebungen zur effizienten und qualitativ hochwertigen Datenerfassung. Dies umfasst:
GUI-Owl-1.5 integriert mehrere Strategien zur umfassenden Verbesserung seiner Agentenfähigkeiten:
Um ein stabiles Reinforcement-Learning-Training über verschiedene Plattformen hinweg zu ermöglichen, wird MRPO (Multi-platform Reinforcement Policy Optimization) eingesetzt. Dieser Algorithmus adressiert Herausforderungen wie Multi-Plattform-Konflikte und die geringe Trainingseffizienz bei langwierigen Aufgaben. MRPO vereinheitlicht das Lernen über mobile, Desktop- und Web-Umgebungen unter einer einzigen, geräteabhängigen Policy und nutzt einen Online-Rollout-Puffer zur Erhöhung der Diversität innerhalb von Trainingsgruppen.
GUI-Owl-1.5 wurde auf über 20 GUI-Benchmarks umfassend evaluiert und erreichte dabei in verschiedenen Kategorien Spitzenleistungen. Die Ergebnisse zeigen die Stärke des Modells in der GUI-Automatisierung, dem Grounding, der Tool-Nutzung sowie in Gedächtnis- und Wissensaufgaben.
Auf Benchmarks wie OSWorld, AndroidWorld und WebArena erzielte GUI-Owl-1.5 beeindruckende Erfolgsraten. Beispielsweise erreichte das 8B-Thinking-Modell auf OSWorld-Verified 52,9% und auf AndroidWorld 71,6%. Das 32B-Instruct-Modell übertraf auf MobileWorld und OSWorld-MCP sowohl Single-Plattform-Spezialisten als auch führende proprietäre Modelle, was seine Fähigkeit zur Tool-Nutzung unterstreicht.
Im Bereich des Groundings, also der Fähigkeit, natürliche Sprachanfragen mit entsprechenden UI-Elementen zu verknüpfen, zeigte GUI-Owl-1.5 ebenfalls führende Ergebnisse. Auf dem ScreenSpot-Pro-Benchmark, der sich auf hochauflösende und anspruchsvolle professionelle Software-Grounding-Aufgaben konzentriert, erreichte das 32B-Instruct-Modell eine Genauigkeit von 72,9%. Mit einer zweistufigen Verfeinerungsstrategie, die ein „Crop Tool“ einsetzt, stieg dieser Wert sogar auf 80,3%.
Auf dem GUI Knowledge Benchmark, der das Wissen des Modells in den Bereichen Interface Perception, Interaction Prediction und Instruction Understanding bewertet, erreichte GUI-Owl-1.5-32B-Instruct eine Gesamtgenauigkeit von 75,45%. Dies übertraf selbst proprietäre Modelle wie o3 und Gemini-2.5-Pro. Auch im MemGUI-Bench, der die Fähigkeit zur Erinnerung und Nutzung von Interaktionshistorien testet, zeigte das Modell überlegene Leistungen.
Ablationsstudien belegten die Wirksamkeit der virtuellen Trajektoriengenerierung und der vereinheitlichten CoT-Synthese. Die Entfernung der virtuellen Umgebungen führte zu deutlichen Leistungseinbußen auf PC-Eval und Mobile-Eval, während die Deaktivierung der CoT-Synthese die Ergebnisse auf OSWorld und AndroidWorld verschlechterte. Dies unterstreicht die Bedeutung dieser Komponenten für die Robustheit und Argumentationsfähigkeit des Modells.
Fallstudien illustrieren die praktischen Fähigkeiten von GUI-Owl-1.5:
GUI-Owl-1.5 stellt einen bedeutenden Fortschritt in der Entwicklung multimodaler GUI-Agenten dar. Durch innovative Datenpipelines, verbesserte Agentenfähigkeiten und skalierbares Reinforcement Learning erreicht das Modell eine hohe Leistungsfähigkeit und Generalisierbarkeit über verschiedene Plattformen hinweg. Die Open-Source-Verfügbarkeit der GUI-Owl-1.5-Modelle und eine Online-Cloud-Sandbox-Demo (via GitHub) sollen die Akzeptanz und Weiterentwicklung von GUI-Agenten für die Geräteautomatisierung in der Forschung und Industrie fördern. Dies könnte die Grundlage für zukünftige autonome Systeme legen, die in der Lage sind, komplexe Aufgaben in digitalen Umgebungen effizienter und robuster zu bewältigen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen