Fortschritte im GUI-Grounding: Microsofts Phi-Ground-Modellfamilie und ihre Auswirkungen auf KI-Agenten

Kategorien:

No items found.

Freigegeben:

May 10, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Microsoft hat mit der Phi-Ground-Modellfamilie ein neues Vision-Modell für GUI-Grounding vorgestellt.
Das Modell Phi-Ground-Any mit 4 Milliarden Parametern erzielt „State-of-the-Art“-Ergebnisse (SOTA) auf Benchmarks wie ScreenSpot-pro und UI-Vision.
GUI-Grounding ist eine Kernkomponente für KI-Agenten, um Bildschirmelemente präzise zu identifizieren und zu interagieren.
Die Entwicklung der Phi-Ground-Modelle basiert auf umfangreichen empirischen Studien zu Datenerfassung, Trainingsmethoden und Skalierung.
Die Forschung hebt die Bedeutung der Eingabereihenfolge von Modalitäten und der Datenverteilung für die Modellleistung hervor.
Microsoft integriert die Technologie bereits in Produkte wie Windows Copilot, um die Benutzerinteraktion zu verbessern.
Soziale Auswirkungen wie Datenschutz und Verantwortlichkeit bei Fehlaktionen von KI-Agenten werden als wichtige offene Fragen diskutiert.

Microsofts Phi-Ground-Any: Ein Durchbruch in der GUI-Interaktion für KI-Agenten

Die Entwicklung von Künstlicher Intelligenz hat in den letzten Jahren erhebliche Fortschritte gemacht, insbesondere im Bereich der multimodalen Modelle. Ein zentrales Element für die Effektivität von KI-Agenten ist die Fähigkeit, grafische Benutzeroberflächen (GUIs) präzise zu interpretieren und mit ihnen zu interagieren. Microsoft hat nun ein neues Kapitel in diesem Bereich aufgeschlagen: Die Veröffentlichung der Phi-Ground-Modellfamilie, darunter das 4-Milliarden-Parameter-Modell Phi-Ground-Any, markiert einen bedeutenden Fortschritt im GUI-Grounding und der präzisen Interaktion mit Bildschirmelementen. Dieses Modell erreicht nach Angaben von Microsoft "State-of-the-Art"-Ergebnisse auf etablierten Benchmarks wie ScreenSpot-pro und UI-Vision.

Die Bedeutung von GUI-Grounding für KI-Agenten

GUI-Grounding ist die Fähigkeit eines KI-Systems, spezifische Elemente auf einer grafischen Benutzeroberfläche zu lokalisieren und zu identifizieren, basierend auf einer gegebenen Anweisung. Es ist die "Wahrnehmung" eines KI-Agenten, die es ihm ermöglicht, Befehle wie "Klicken Sie auf die Schaltfläche 'Senden'" in genaue Bildschirmkoordinaten umzusetzen. Diese Funktion bildet eine entscheidende Grundlage für sogenannte Computer Use Agents (CUAs), die darauf abzielen, Computeraufgaben auf menschenähnliche Weise auszuführen, beispielsweise durch das Klicken auf Schaltflächen, das Ausfüllen von Formularen oder das Navigieren zwischen Anwendungen. Die Zuverlässigkeit dieser "Grounding"-Fähigkeit ist ausschlaggebend für die erfolgreiche Automatisierung komplexer digitaler Workflows.

Bestehende End-to-End-Grounding-Modelle zeigten bisher eine Genauigkeit von unter 65 % auf anspruchsvollen Benchmarks wie ScreenSpot-pro und UI-Vision. Dies deutet darauf hin, dass sie für den breiten Einsatz noch nicht ausreichend ausgereift sind. Die Forschung von Microsoft hat sich daher zum Ziel gesetzt, die Trainingsmethoden für Grounding-Modelle empirisch zu untersuchen und zu verbessern.

Entwicklung der Phi-Ground-Modellfamilie: Eine empirische Studie

Die Entwicklung der Phi-Ground-Modellfamilie basiert auf einer detaillierten empirischen Studie, die verschiedene Aspekte von der Datenerfassung bis zum Modelltraining beleuchtet. Die Forscher konzentrierten sich auf die Optimierung der Wahrnehmungsfähigkeiten der Modelle, um eine präzisere Lokalisierung von Bildschirmelementen zu ermöglichen.

Datenaufbereitung und -optimierung

Für das Training der Phi-Ground-Modelle wurde ein umfangreicher Datensatz von über 40 Millionen Samples aus verschiedenen Quellen gesammelt. Dazu gehören Open-Source-Daten von OS-Atlas, SeeClick, E2ISynth und GUIAct. Eine besondere Rolle spielte die Nutzung von Daten aus CommonCrawl, einem großen öffentlichen Repository von Internetinhalten. Diese Webseiten wurden als Screenshots gerendert, um Trainingsbeispiele zu generieren. Um die hohe Rauschintensität der Webdaten zu bewältigen und Trainingsfehler zu vermeiden, wurde eine mehrstufige Datenbereinigungspipeline entwickelt. Diese umfasste:

Index- und Domain-Deduplizierung: URLs wurden dedupliziert und nach Sprache (nur Englisch) und Webseitenstatus gefiltert, um eine hohe Datenqualität zu gewährleisten.
Rendering: Screenshots wurden mit variierenden Bildschirmauflösungen (1080p, 2K, 4K) und Seitenverhältnissen gerendert. Interaktive HTML-Elemente wurden mittels spezifischer Regeln gefiltert und beibehalten.
Regelbasierte Offline-Filterung: Nach dem Speichern der Daten wurden weitere Filter angewendet, um überlappende Boxen zu entfernen, leere Boxen zu identifizieren und nicht-interaktive Textinhalte zu eliminieren.
Elementauswahl und -etikettierung: Die Positionen der Elementzentren und deren Typen wurden berücksichtigt, um eine ausgewogene Datenverteilung zu gewährleisten. GPT-4O wurde zur Annotation der Referenzausdrücke (REs) verwendet.

Zusätzlich wurden hochauflösende Screenshots mittels der Bing Image Search API gesammelt und manuell annotierte Daten für spezifische Anwendungsfälle (z.B. Microsoft Office, Windows-Einstellungen) integriert. Diese vielfältigen Datenquellen trugen zur Robustheit und Generalisierungsfähigkeit der Modelle bei.

Einfluss der Eingabereihenfolge und Datenaugmentation

Ein wesentlicher Befund der Studie betrifft die Reihenfolge der Modalitätseingaben. Experimente zeigten, dass die Eingabe von Text vor Bildern zu signifikant besseren Ergebnissen führt als die umgekehrte Reihenfolge. Dies wird darauf zurückgeführt, dass Transformer-Modelle kausal verarbeiten. Wenn Text zuerst eingegeben wird, kann das Modell die visuellen Informationen instruktionsbewusst interpretieren und weiß, wonach es suchen muss. Bei der Datenaugmentation zeigte sich, dass "Random Resize" die Leistung in hochauflösenden Szenarien wie ScreenSpot-pro erheblich verbessert, während "Random Crop" nur geringfügige Auswirkungen hatte.

Skalierung und Post-Training

Die Forscher untersuchten auch den Zusammenhang zwischen Modellparametern, der Anzahl der Bild-Token und dem Trainingsdatenvolumen. Es wurde festgestellt, dass die Anzahl der Bild-Token für anspruchsvolle Benchmarks wie ScreenSpot-pro und UI-Vision einen signifikanten Einfluss hat. Eine zu geringe Anzahl von Bild-Token kann zu einem Engpass führen und die Wahrnehmung kleiner Objekte beeinträchtigen. Über 2000 Bild-Token hinaus nimmt der Nutzen jedoch ab. Dies liefert wichtige Erkenntnisse für die Entwicklung kosteneffizienter Modelle.

Im Post-Training wurden verschiedene Algorithmen wie Supervised Fine-Tuning (SFT), Curriculum Learning und Reinforcement Learning (RL) evaluiert. Überraschenderweise konnte RL, insbesondere Direct Preference Optimization (DPO), die Ergebnisse selbst bei bereits hochoptimierten Modellen in rein visuellen Aufgaben weiter verbessern. Dieser Erfolg wird auf die robustere Datenauswahl und die Fähigkeit, mit fehlerhaften Ground Truths umzugehen, zurückgeführt. Ein mehrstufiger DPO-Ansatz, bei dem die "Rollouts" häufiger aktualisiert werden, führte zu den besten Ergebnissen.

Leistung und Benchmarks

Die Phi-Ground-Modellfamilie, insbesondere die DPO-optimierten Varianten wie Phi-Ground-4B-16C-DPO und Phi-Ground-7B-16C-DPO, erreicht in den Agent-Einstellungen SOTA-Ergebnisse auf allen fünf getesteten GUI-Grounding-Benchmarks. Hierzu zählen:

ScreenSpot-pro: Eine Genauigkeit von 55,0 % wurde erreicht.
UI-Vision: Mit 36,2 % wurde das höchste Ergebnis für diese Benchmark erzielt.
Showdown-click-dev: Die Modelle übertrafen auch kommerzielle Modelle wie OpenAI Operator und Claude Computer Use.

Auch in End-to-End-Modelleinstellungen zeigten die Phi-Ground-Modelle eine konsistent überlegene Leistung auf ScreenSpot-Pro, UI-Vision und dem proprietären Gold-Datensatz. Die ausgewogene Leistung über mehrere Benchmarks hinweg unterstreicht die Generalisierungsfähigkeit der Modelle, die durch eine sorgfältige Auswahl und Ablation von Techniken während des Entwicklungsprozesses erreicht wurde.

Fehleranalyse und Herausforderungen

Eine detaillierte Fehleranalyse am Beispiel von ScreenSpot-pro zeigte, dass End-to-End-Grounding-Modelle oft Schwierigkeiten mit räumlichen Schlussfolgerungen haben. Wenn beispielsweise Schlüsselwörter in Anweisungen vorkommen, neigt das Modell dazu, diese Wörter direkt hervorzuheben, anstatt die tatsächlich interaktive Region zu identifizieren. Solche "Planungsfehler" oder "Planungsversäumnisse" machen einen erheblichen Teil der Fehler aus. Auch Fehler bei der Planung durch O4-mini, insbesondere bei ähnlichen Regionen oder erforderlichem Fachwissen, wurden festgestellt.

Weitere Fehlerquellen umfassen die Präferenz des Grounding-Modells für bestimmte RE-Stile und Sprachbarrieren, wenn der Zielbereich Sprachen enthält, die nicht im Trainingsdatensatz abgedeckt sind (z.B. Chinesisch). Darüber hinaus können extreme Bildschirmgrößen und -formen sowie schwer in natürlicher Sprache zu beschreibende Regionen die Genauigkeit beeinträchtigen.

Soziale Auswirkungen und offene Fragen

Die Entwicklung von CUAs bringt wichtige soziale Fragen mit sich, insbesondere in Bezug auf:

Datenschutz: Die Notwendigkeit, Screenshots von Benutzerbildschirmen für Grounding und Planung in die Cloud hochzuladen, könnte Datenschutzverletzungen nach sich ziehen. Es bedarf relevanter Protokolle, rechtlicher Rahmenbedingungen und Algorithmen zum Schutz der Privatsphäre.
Verantwortlichkeit bei Fehlaktionen: CUAs könnten irreversible und schädliche Operationen ausführen. Es müssen Mensch-Computer-Kollaborationsmethoden erforscht werden, die eine effiziente Ablösung menschlicher Arbeit bei gleichzeitiger menschlicher Aufsicht ermöglichen. Die Entwicklung von Benchmarks zur Bewertung der potenziellen Schädlichkeit von GUI-Grounding-Modellen wird als vorteilhaft erachtet.

Fazit

Die Phi-Ground-Modellfamilie von Microsoft stellt einen signifikanten Fortschritt im Bereich des GUI-Grounding dar. Durch umfassende empirische Studien zu Datenerfassung, Eingabe-/Ausgabeformaten und Recheneffizienz konnte die Wahrnehmung interaktiver Elemente in digitalen Benutzeroberflächen erheblich verbessert werden. Die Modelle erreichen "State-of-the-Art"-Leistungen auf wichtigen Benchmarks und zeigen großes Potenzial für den Einsatz in KI-Agenten, wie die Integration in Windows Copilot belegt. Die fortlaufende Forschung adressiert auch die komplexen sozialen Implikationen, um den verantwortungsvollen Einsatz dieser Technologien zu gewährleisten. Diese Erkenntnisse sind nicht nur für das GUI-Grounding relevant, sondern bieten auch wertvolle Einsichten für andere multimodale Wahrnehmungsaufgaben im Bereich der Künstlichen Intelligenz.

Bibliographie

- Microsoft Phi-Ground-4B-7C - Hugging Face. (2025, 31. Juli). - Phi-Ground Tech Report: Advancing Perception in GUI Grounding – Microsoft Research. (2025, 18. Juni). - Zhang, M., Xu, Z., Zhu, J., Dai, Q., Qiu, K., Yang, Y., Luo, C., Chen, T., Wagle, J., Franklin, T., Guo, B. (2025). Phi-Ground Tech Report: Advancing Perception in GUI Grounding. arXiv preprint arXiv:2507.23779. - microsoft/Phi-Ground - GitHub. (2025, 12. August). - Phi-Ground: Improving how AI agents navigate screen interfaces. (2026, 19. Januar). Microsoft Research. - microsoft/Phi-4-reasoning-vision-15B · Hugging Face. - Phi-Ground Tech Report. (n.d.). Microsoft. - Zhang, M., Xu, Z., Zhu, J., Dai, Q., Qiu, K., Yang, Y., Luo, C., Chen, T., Wagle, J., Franklin, T., Guo, B. (2025). Phi-Ground Tech Report: Advancing Perception in GUI Grounding. arXiv preprint arXiv:2507.23779. - HuggingPapers. (2026, 9. Mai). Microsoft just released Phi-Ground-Any on Hugging Face A 4B parameter vision model for GUI grounding that achieves SOTA results on ScreenSpot-pro and UI-Vision, enabling AI agents to precisely click screen elements. [Tweet]. X. - HuggingPapers. (2026, 9. Mai). Model: https://huggingface.co/microsoft/Phi-Ground-Any Paper: https://huggingface.co/papers/2507.23779 [Tweet]. X. - Zhang, J. (2026, 9. Mai). That's wild! As a CPA who's built OCR, I see huge potential for automating tedious data entry from financial reports & statements. Precise GUI interaction could revolutionize how we audit! #AI #Accoun [Tweet]. X. - Zhang, J. (2026, 9. Mai). That's pretty cool! As someone who built AI OCR, I know how tricky UI interpretation can be. Accurate GUI grounding could seriously streamline data entry workflows. Imagine the possibilities for autom [Tweet]. X. - Suresh. (2026, 9. Mai). 4B is probably a latency call, screenpro wrecks bigger models too [Tweet]. X. - Sant, P. (2026, 10. Mai). Agents stop feeling toy-like when they can hit the exact UI target, not just vaguely understand the screen. [Tweet]. X. - Zhang, J. (2026, 9. Mai). Wow, this is interesting! As someone dealing with tons of invoices, accurate GUI grounding could seriously streamline OCR and data entry automation. Think less manual verification of those pesky table [Tweet]. X.