Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Entwicklung von Künstlicher Intelligenz hat in den letzten Jahren erhebliche Fortschritte gemacht, insbesondere im Bereich der multimodalen Modelle. Ein zentrales Element für die Effektivität von KI-Agenten ist die Fähigkeit, grafische Benutzeroberflächen (GUIs) präzise zu interpretieren und mit ihnen zu interagieren. Microsoft hat nun ein neues Kapitel in diesem Bereich aufgeschlagen: Die Veröffentlichung der Phi-Ground-Modellfamilie, darunter das 4-Milliarden-Parameter-Modell Phi-Ground-Any, markiert einen bedeutenden Fortschritt im GUI-Grounding und der präzisen Interaktion mit Bildschirmelementen. Dieses Modell erreicht nach Angaben von Microsoft "State-of-the-Art"-Ergebnisse auf etablierten Benchmarks wie ScreenSpot-pro und UI-Vision.
GUI-Grounding ist die Fähigkeit eines KI-Systems, spezifische Elemente auf einer grafischen Benutzeroberfläche zu lokalisieren und zu identifizieren, basierend auf einer gegebenen Anweisung. Es ist die "Wahrnehmung" eines KI-Agenten, die es ihm ermöglicht, Befehle wie "Klicken Sie auf die Schaltfläche 'Senden'" in genaue Bildschirmkoordinaten umzusetzen. Diese Funktion bildet eine entscheidende Grundlage für sogenannte Computer Use Agents (CUAs), die darauf abzielen, Computeraufgaben auf menschenähnliche Weise auszuführen, beispielsweise durch das Klicken auf Schaltflächen, das Ausfüllen von Formularen oder das Navigieren zwischen Anwendungen. Die Zuverlässigkeit dieser "Grounding"-Fähigkeit ist ausschlaggebend für die erfolgreiche Automatisierung komplexer digitaler Workflows.
Bestehende End-to-End-Grounding-Modelle zeigten bisher eine Genauigkeit von unter 65 % auf anspruchsvollen Benchmarks wie ScreenSpot-pro und UI-Vision. Dies deutet darauf hin, dass sie für den breiten Einsatz noch nicht ausreichend ausgereift sind. Die Forschung von Microsoft hat sich daher zum Ziel gesetzt, die Trainingsmethoden für Grounding-Modelle empirisch zu untersuchen und zu verbessern.
Die Entwicklung der Phi-Ground-Modellfamilie basiert auf einer detaillierten empirischen Studie, die verschiedene Aspekte von der Datenerfassung bis zum Modelltraining beleuchtet. Die Forscher konzentrierten sich auf die Optimierung der Wahrnehmungsfähigkeiten der Modelle, um eine präzisere Lokalisierung von Bildschirmelementen zu ermöglichen.
Für das Training der Phi-Ground-Modelle wurde ein umfangreicher Datensatz von über 40 Millionen Samples aus verschiedenen Quellen gesammelt. Dazu gehören Open-Source-Daten von OS-Atlas, SeeClick, E2ISynth und GUIAct. Eine besondere Rolle spielte die Nutzung von Daten aus CommonCrawl, einem großen öffentlichen Repository von Internetinhalten. Diese Webseiten wurden als Screenshots gerendert, um Trainingsbeispiele zu generieren. Um die hohe Rauschintensität der Webdaten zu bewältigen und Trainingsfehler zu vermeiden, wurde eine mehrstufige Datenbereinigungspipeline entwickelt. Diese umfasste:
Zusätzlich wurden hochauflösende Screenshots mittels der Bing Image Search API gesammelt und manuell annotierte Daten für spezifische Anwendungsfälle (z.B. Microsoft Office, Windows-Einstellungen) integriert. Diese vielfältigen Datenquellen trugen zur Robustheit und Generalisierungsfähigkeit der Modelle bei.
Ein wesentlicher Befund der Studie betrifft die Reihenfolge der Modalitätseingaben. Experimente zeigten, dass die Eingabe von Text vor Bildern zu signifikant besseren Ergebnissen führt als die umgekehrte Reihenfolge. Dies wird darauf zurückgeführt, dass Transformer-Modelle kausal verarbeiten. Wenn Text zuerst eingegeben wird, kann das Modell die visuellen Informationen instruktionsbewusst interpretieren und weiß, wonach es suchen muss. Bei der Datenaugmentation zeigte sich, dass "Random Resize" die Leistung in hochauflösenden Szenarien wie ScreenSpot-pro erheblich verbessert, während "Random Crop" nur geringfügige Auswirkungen hatte.
Die Forscher untersuchten auch den Zusammenhang zwischen Modellparametern, der Anzahl der Bild-Token und dem Trainingsdatenvolumen. Es wurde festgestellt, dass die Anzahl der Bild-Token für anspruchsvolle Benchmarks wie ScreenSpot-pro und UI-Vision einen signifikanten Einfluss hat. Eine zu geringe Anzahl von Bild-Token kann zu einem Engpass führen und die Wahrnehmung kleiner Objekte beeinträchtigen. Über 2000 Bild-Token hinaus nimmt der Nutzen jedoch ab. Dies liefert wichtige Erkenntnisse für die Entwicklung kosteneffizienter Modelle.
Im Post-Training wurden verschiedene Algorithmen wie Supervised Fine-Tuning (SFT), Curriculum Learning und Reinforcement Learning (RL) evaluiert. Überraschenderweise konnte RL, insbesondere Direct Preference Optimization (DPO), die Ergebnisse selbst bei bereits hochoptimierten Modellen in rein visuellen Aufgaben weiter verbessern. Dieser Erfolg wird auf die robustere Datenauswahl und die Fähigkeit, mit fehlerhaften Ground Truths umzugehen, zurückgeführt. Ein mehrstufiger DPO-Ansatz, bei dem die "Rollouts" häufiger aktualisiert werden, führte zu den besten Ergebnissen.
Die Phi-Ground-Modellfamilie, insbesondere die DPO-optimierten Varianten wie Phi-Ground-4B-16C-DPO und Phi-Ground-7B-16C-DPO, erreicht in den Agent-Einstellungen SOTA-Ergebnisse auf allen fünf getesteten GUI-Grounding-Benchmarks. Hierzu zählen:
Auch in End-to-End-Modelleinstellungen zeigten die Phi-Ground-Modelle eine konsistent überlegene Leistung auf ScreenSpot-Pro, UI-Vision und dem proprietären Gold-Datensatz. Die ausgewogene Leistung über mehrere Benchmarks hinweg unterstreicht die Generalisierungsfähigkeit der Modelle, die durch eine sorgfältige Auswahl und Ablation von Techniken während des Entwicklungsprozesses erreicht wurde.
Eine detaillierte Fehleranalyse am Beispiel von ScreenSpot-pro zeigte, dass End-to-End-Grounding-Modelle oft Schwierigkeiten mit räumlichen Schlussfolgerungen haben. Wenn beispielsweise Schlüsselwörter in Anweisungen vorkommen, neigt das Modell dazu, diese Wörter direkt hervorzuheben, anstatt die tatsächlich interaktive Region zu identifizieren. Solche "Planungsfehler" oder "Planungsversäumnisse" machen einen erheblichen Teil der Fehler aus. Auch Fehler bei der Planung durch O4-mini, insbesondere bei ähnlichen Regionen oder erforderlichem Fachwissen, wurden festgestellt.
Weitere Fehlerquellen umfassen die Präferenz des Grounding-Modells für bestimmte RE-Stile und Sprachbarrieren, wenn der Zielbereich Sprachen enthält, die nicht im Trainingsdatensatz abgedeckt sind (z.B. Chinesisch). Darüber hinaus können extreme Bildschirmgrößen und -formen sowie schwer in natürlicher Sprache zu beschreibende Regionen die Genauigkeit beeinträchtigen.
Die Entwicklung von CUAs bringt wichtige soziale Fragen mit sich, insbesondere in Bezug auf:
Die Phi-Ground-Modellfamilie von Microsoft stellt einen signifikanten Fortschritt im Bereich des GUI-Grounding dar. Durch umfassende empirische Studien zu Datenerfassung, Eingabe-/Ausgabeformaten und Recheneffizienz konnte die Wahrnehmung interaktiver Elemente in digitalen Benutzeroberflächen erheblich verbessert werden. Die Modelle erreichen "State-of-the-Art"-Leistungen auf wichtigen Benchmarks und zeigen großes Potenzial für den Einsatz in KI-Agenten, wie die Integration in Windows Copilot belegt. Die fortlaufende Forschung adressiert auch die komplexen sozialen Implikationen, um den verantwortungsvollen Einsatz dieser Technologien zu gewährleisten. Diese Erkenntnisse sind nicht nur für das GUI-Grounding relevant, sondern bieten auch wertvolle Einsichten für andere multimodale Wahrnehmungsaufgaben im Bereich der Künstlichen Intelligenz.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen