Neuer Benchmark zur Bewertung der GUI-Grundierung durch multimodale Sprachmodelle in professionellen Umgebungen

Kategorien:

No items found.

Freigegeben:

March 19, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

ScreenSpot-Pro ist ein neuer Benchmark, der die Fähigkeit von multimodalen großen Sprachmodellen (MLLMs) zur GUI-Grundierung in hochauflösenden, professionellen Umgebungen bewertet.
Im Gegensatz zu früheren Benchmarks, die sich auf allgemeine Aufgaben konzentrierten, umfasst ScreenSpot-Pro 1.581 Aufgaben über 23 professionelle Anwendungen, 5 Industrien und 3 Betriebssysteme.
Bestehende MLLMs zeigen auf ScreenSpot-Pro eine geringe Genauigkeit (beste Modelle erreichen nur 18,9 %), was auf die Herausforderungen komplexer, dichter UI-Elemente und hoher Auflösungen hinweist.
Der ScreenSeekeR-Ansatz, ein agentisches Framework, verbessert die Genauigkeit durch die strategische Reduzierung des Suchbereichs auf 48,1 %, ohne zusätzliches Training des Basismodells.
Der Benchmark unterstreicht die Notwendigkeit spezialisierter Modelle und Strategien für die GUI-Automatisierung in professionellen Anwendungen.

Die Automatisierung von Aufgaben in grafischen Benutzeroberflächen (GUIs) mittels Künstlicher Intelligenz (KI) ist ein Feld von wachsender Bedeutung, insbesondere im Hinblick auf Effizienzsteigerungen in professionellen Arbeitsumgebungen. Während multimodale große Sprachmodelle (MLLMs) bereits bemerkenswerte Fortschritte bei der Interaktion mit GUIs für allgemeine Aufgaben wie Web-Browsing oder mobile Anwendungen erzielt haben, stellt die Komplexität professioneller Softwareumgebungen eine besondere Herausforderung dar. Hier setzt der neue Benchmark ScreenSpot-Pro an, der darauf abzielt, die Fähigkeiten von MLLMs zur präzisen GUI-Grundierung in hochauflösenden, anspruchsvollen Szenarien zu bewerten.

Die Herausforderung professioneller GUI-Umgebungen

Traditionelle GUI-Benchmarks konzentrierten sich oft auf beschnittene, niedrigauflösende Screenshots und einfachere Interaktionsmuster. Dies steht im Kontrast zur Realität professioneller Anwendungen, die typischerweise auf 4K-Monitoren oder sogar Multi-Monitor-Setups bei hohen Auflösungen laufen. In solchen Umgebungen sind UI-Elemente oft winzig, dicht gedrängt und erfordern eine hohe Präzision bei der Erkennung und Interaktion. Die Autoren von ScreenSpot-Pro, darunter Kaixin Li und Ziyang Meng, identifizierten drei Kernprobleme, die MLLMs in diesen Kontexten begegnen:

Komplexität der Anwendungen: Professionelle Software bietet eine Fülle von Funktionen, die sich in komplexen und oft maßgeschneiderten Benutzeroberflächen widerspiegeln.
Hohe Auflösung und kleine Zielelemente: Die Notwendigkeit, mehr Inhalte auf dem Bildschirm darzustellen, führt dazu, dass einzelne UI-Elemente im Verhältnis zur Gesamtbildgröße sehr klein werden (durchschnittlich nur 0,07 % der Bildschirmfläche bei ScreenSpot-Pro, verglichen mit 2,01 % bei früheren Benchmarks). Dies erschwert die genaue Lokalisierung erheblich.
Zusätzliche Kontextelemente: Professionelle Anwender nutzen häufig zusätzliche Dokumente und externe Tools, die den Bildschirm weiter überladen und die GUI-Grundierung erschweren.

Diese Faktoren führen dazu, dass bestehende GUI-Grundierungsmodelle, selbst spezialisierte, auf ScreenSpot-Pro eine geringe Leistung zeigen. Beispielsweise erreichte das beste Modell, OS-Atlas-7B, lediglich eine Genauigkeit von 18,9 %, während GPT-4o mit nur 0,8 % noch deutlich darunter lag. Dies unterstreicht die Notwendigkeit neuer Ansätze.

ScreenSpot-Pro: Ein umfassender Benchmark

ScreenSpot-Pro wurde entwickelt, um diese Lücken zu schließen. Der Benchmark umfasst 1.581 Aufgaben, die von Experten mit mindestens fünf Jahren Erfahrung in den jeweiligen Anwendungen annotiert wurden. Die Datenerfassung erfolgte unter realitätsnahen Bedingungen mit unbeschnittenen, hochauflösenden Screenshots. Das Dataset deckt 23 Anwendungen aus fünf Branchen und drei Betriebssystemen ab:

Entwicklung und Programmierung: Visual Studio Code, PyCharm, Android Studio, Quartus, VMware Fusion.
Kreativsoftware: Photoshop, Premiere, Illustrator, Blender, DaVinci Resolve, FruitLoops Studio, Unreal Engine.
CAD und Ingenieurwesen: AutoCAD, SolidWorks, Inventor, Vivado.
Wissenschaftlich und Analytisch: MATLAB, Origin, Stata, EViews.
Bürosoftware: Word, Excel, PowerPoint.
Betriebssysteme: Windows, macOS, Linux (allgemeine Aufgaben).

Die Annotationsqualität wurde durch die Überprüfung jeder Instanz durch mindestens zwei Annotatoren sichergestellt, wobei zweideutige Anweisungen eliminiert wurden, um eine eindeutige Zuordnung zu ermöglichen. Eine Besonderheit des Benchmarks ist die Klassifizierung von Zielelementen als "Text" oder "Icon", wobei Icons eine größere Herausforderung für die Modelle darstellen, da sie oft spezifisches Fachwissen erfordern, das in den Trainingsdaten der Modelle unterrepräsentiert ist.

ScreenSeekeR: Ein agentisches Framework zur Verbesserung der GUI-Grundierung

Aufbauend auf der Erkenntnis, dass das strategische Eingrenzen des Suchbereichs die Genauigkeit erheblich verbessern kann, wurde das agentische Framework ScreenSeekeR vorgeschlagen. Anstatt das gesamte hochauflösende Bild zu verarbeiten, nutzt ScreenSeekeR das GUI-Wissen eines leistungsstarken Planers (in diesem Fall GPT-4o), um potenzielle Suchbereiche zu identifizieren. Dieser Prozess erfolgt iterativ:

Der Planer schlägt basierend auf der Textanweisung und dem Screenshot die wahrscheinlichsten Suchbereiche vor.
Diese Kandidatenbereiche werden gefiltert und bewertet, indem die Vorhersagen eines Grundierungsmodells verwendet werden.
Der Planer setzt die Suche rekursiv fort, indem er die vielversprechendsten Bereiche zuschneidet und so irrelevante Ablenkungen entfernt.
Dieser Prozess wird fortgesetzt, bis das Zielelement gefunden ist oder die maximale Suchtiefe erreicht ist.

Dieser Ansatz ermöglichte es ScreenSeekeR, die Leistung des Basismodells OS-Atlas-7B von 18,9 % auf beeindruckende 48,1 % zu steigern, und das ohne zusätzliches Training des Grundierungsmodells. Dies deutet darauf hin, dass Modelle mit einem starken Verständnis von Screenshots, selbst wenn sie nicht für die Grundierung optimiert sind, zur Verbesserung der Grundierungsleistung genutzt werden können.

Weitere Methoden zur Suchraumeingrenzung

Neben ScreenSeekeR wurden weitere "planerfreie" Methoden zur Reduzierung des Suchraums untersucht:

Iterative Zooming: Das Bild wird in kleinere Patches aufgeteilt, und die Suche wird im Patch fortgesetzt, in den die Vorhersage fällt.
Iterative Narrowing: Ähnlich wie Iterative Zooming, aber die Patches werden um die Vorhersage zentriert zugeschnitten.
ReGround: Ein einfacher Ansatz, bei dem der Bereich um die ursprüngliche Vorhersage zugeschnitten und eine erneute Grundierung durchgeführt wird.

Interessanterweise erzielte die einfachste ReGround-Methode mit 40,2 % die beste Leistung unter den planerfreien Ansätzen, was die Effektivität einer gezielten Suchraumeingrenzung unterstreicht.

Herausforderungen im mehrsprachigen Kontext

Der ScreenSpot-Pro-Benchmark beinhaltet auch chinesische Anweisungen, um die Multilingualität der Modelle zu testen. Die Ergebnisse zeigten, dass die meisten Modelle bei chinesischen Anweisungen einen deutlichen Leistungsabfall verzeichneten. Beispielsweise sank die Genauigkeit von OS-Atlas-7B auf 16,8 %. Dies deutet darauf hin, dass effektives mehrsprachiges Verständnis und die Fähigkeit, Kontext und Anweisungen über verschiedene Sprachen hinweg zu interpretieren, weiterhin eine offene Herausforderung für die meisten aktuellen Modelle darstellen.

Fazit und Ausblick

ScreenSpot-Pro etabliert sich als ein entscheidender Benchmark für die Bewertung der GUI-Grundierung in professionellen Umgebungen. Er deckt die Schwächen bestehender Ansätze auf, insbesondere bei der Handhabung kleiner, nicht-textueller und kontextuell komplexer Zielelemente. Die Ergebnisse unterstreichen die Notwendigkeit spezialisierterer Modelle und Strategien, die den Anforderungen hochauflösender, professioneller Software gerecht werden können. Ansätze wie ScreenSeekeR, die auf intelligenten Suchstrategien basieren, zeigen vielversprechende Wege auf, um die Genauigkeit zu verbessern und die Entwicklung praktischer, robuster GUI-Agenten voranzutreiben. Die Forschung in diesem Bereich wird sich voraussichtlich auf folgende Punkte konzentrieren:

Entwicklung von Modellen, die besser mit kleinen, dichten UI-Elementen umgehen können.
Verbesserung des Verständnisses von Icons und domänenspezifischem Wissen.
Weiterentwicklung von Strategien zur effizienten Verarbeitung hochauflösender Bilddaten.
Erforschung von End-to-End-Planung und Ausführung von Aufgaben in GUIs.

Die kontinuierliche Weiterentwicklung dieser Fähigkeiten ist entscheidend, um das volle Potenzial von KI-gestützten GUI-Agenten für die Steigerung der Produktivität und Kreativität in professionellen Arbeitsabläufen zu erschließen.

Bibliographie

- Li, K., Meng, Z., Lin, H., Luo, Z., Tian, Y., Ma, J., Huang, Z., & Chua, T.-S. (2025). ScreenSpot-Pro: GUI Grounding for Professional High-Resolution Computer Use. arXiv preprint arXiv:2504.07981. - "ScreenSpot-Pro: GUI Grounding Benchmark." (2025). Emergent Mind. Verfügbar unter: https://www.emergentmind.com/topics/screenspot-pro - "Voxel51/ScreenSpot-Pro · Datasets at Hugging Face." (2025). Hugging Face. Verfügbar unter: https://huggingface.co/datasets/Voxel51/ScreenSpot-Pro - Noyan, M. (2026). "ScreenSpot-Pro, the GUI computer use benchmark is now on Hugging Face 🏆..." LinkedIn. Verfügbar unter: https://www.linkedin.com/posts/merve-noyan-28b1a113a_screenspot-pro-the-gui-computer-use-benchmark-activity-7440031564232675328-8iIC - "ScreenSpot-Pro: GUI Grounding for Professional High-Resolution Computer Use." (2025). Hugging Face Blog. Verfügbar unter: https://huggingface.co/blog/Ziyang/screenspot-pro