Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Automatisierung von Aufgaben in grafischen Benutzeroberflächen (GUIs) mittels Künstlicher Intelligenz (KI) ist ein Feld von wachsender Bedeutung, insbesondere im Hinblick auf Effizienzsteigerungen in professionellen Arbeitsumgebungen. Während multimodale große Sprachmodelle (MLLMs) bereits bemerkenswerte Fortschritte bei der Interaktion mit GUIs für allgemeine Aufgaben wie Web-Browsing oder mobile Anwendungen erzielt haben, stellt die Komplexität professioneller Softwareumgebungen eine besondere Herausforderung dar. Hier setzt der neue Benchmark ScreenSpot-Pro an, der darauf abzielt, die Fähigkeiten von MLLMs zur präzisen GUI-Grundierung in hochauflösenden, anspruchsvollen Szenarien zu bewerten.
Traditionelle GUI-Benchmarks konzentrierten sich oft auf beschnittene, niedrigauflösende Screenshots und einfachere Interaktionsmuster. Dies steht im Kontrast zur Realität professioneller Anwendungen, die typischerweise auf 4K-Monitoren oder sogar Multi-Monitor-Setups bei hohen Auflösungen laufen. In solchen Umgebungen sind UI-Elemente oft winzig, dicht gedrängt und erfordern eine hohe Präzision bei der Erkennung und Interaktion. Die Autoren von ScreenSpot-Pro, darunter Kaixin Li und Ziyang Meng, identifizierten drei Kernprobleme, die MLLMs in diesen Kontexten begegnen:
Diese Faktoren führen dazu, dass bestehende GUI-Grundierungsmodelle, selbst spezialisierte, auf ScreenSpot-Pro eine geringe Leistung zeigen. Beispielsweise erreichte das beste Modell, OS-Atlas-7B, lediglich eine Genauigkeit von 18,9 %, während GPT-4o mit nur 0,8 % noch deutlich darunter lag. Dies unterstreicht die Notwendigkeit neuer Ansätze.
ScreenSpot-Pro wurde entwickelt, um diese Lücken zu schließen. Der Benchmark umfasst 1.581 Aufgaben, die von Experten mit mindestens fünf Jahren Erfahrung in den jeweiligen Anwendungen annotiert wurden. Die Datenerfassung erfolgte unter realitätsnahen Bedingungen mit unbeschnittenen, hochauflösenden Screenshots. Das Dataset deckt 23 Anwendungen aus fünf Branchen und drei Betriebssystemen ab:
Die Annotationsqualität wurde durch die Überprüfung jeder Instanz durch mindestens zwei Annotatoren sichergestellt, wobei zweideutige Anweisungen eliminiert wurden, um eine eindeutige Zuordnung zu ermöglichen. Eine Besonderheit des Benchmarks ist die Klassifizierung von Zielelementen als "Text" oder "Icon", wobei Icons eine größere Herausforderung für die Modelle darstellen, da sie oft spezifisches Fachwissen erfordern, das in den Trainingsdaten der Modelle unterrepräsentiert ist.
Aufbauend auf der Erkenntnis, dass das strategische Eingrenzen des Suchbereichs die Genauigkeit erheblich verbessern kann, wurde das agentische Framework ScreenSeekeR vorgeschlagen. Anstatt das gesamte hochauflösende Bild zu verarbeiten, nutzt ScreenSeekeR das GUI-Wissen eines leistungsstarken Planers (in diesem Fall GPT-4o), um potenzielle Suchbereiche zu identifizieren. Dieser Prozess erfolgt iterativ:
Dieser Ansatz ermöglichte es ScreenSeekeR, die Leistung des Basismodells OS-Atlas-7B von 18,9 % auf beeindruckende 48,1 % zu steigern, und das ohne zusätzliches Training des Grundierungsmodells. Dies deutet darauf hin, dass Modelle mit einem starken Verständnis von Screenshots, selbst wenn sie nicht für die Grundierung optimiert sind, zur Verbesserung der Grundierungsleistung genutzt werden können.
Neben ScreenSeekeR wurden weitere "planerfreie" Methoden zur Reduzierung des Suchraums untersucht:
Interessanterweise erzielte die einfachste ReGround-Methode mit 40,2 % die beste Leistung unter den planerfreien Ansätzen, was die Effektivität einer gezielten Suchraumeingrenzung unterstreicht.
Der ScreenSpot-Pro-Benchmark beinhaltet auch chinesische Anweisungen, um die Multilingualität der Modelle zu testen. Die Ergebnisse zeigten, dass die meisten Modelle bei chinesischen Anweisungen einen deutlichen Leistungsabfall verzeichneten. Beispielsweise sank die Genauigkeit von OS-Atlas-7B auf 16,8 %. Dies deutet darauf hin, dass effektives mehrsprachiges Verständnis und die Fähigkeit, Kontext und Anweisungen über verschiedene Sprachen hinweg zu interpretieren, weiterhin eine offene Herausforderung für die meisten aktuellen Modelle darstellen.
ScreenSpot-Pro etabliert sich als ein entscheidender Benchmark für die Bewertung der GUI-Grundierung in professionellen Umgebungen. Er deckt die Schwächen bestehender Ansätze auf, insbesondere bei der Handhabung kleiner, nicht-textueller und kontextuell komplexer Zielelemente. Die Ergebnisse unterstreichen die Notwendigkeit spezialisierterer Modelle und Strategien, die den Anforderungen hochauflösender, professioneller Software gerecht werden können. Ansätze wie ScreenSeekeR, die auf intelligenten Suchstrategien basieren, zeigen vielversprechende Wege auf, um die Genauigkeit zu verbessern und die Entwicklung praktischer, robuster GUI-Agenten voranzutreiben. Die Forschung in diesem Bereich wird sich voraussichtlich auf folgende Punkte konzentrieren:
Die kontinuierliche Weiterentwicklung dieser Fähigkeiten ist entscheidend, um das volle Potenzial von KI-gestützten GUI-Agenten für die Steigerung der Produktivität und Kreativität in professionellen Arbeitsabläufen zu erschließen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen