Fortschrittliche Ansätze in der GUI-Automatisierung mit MolmoPoint-GUI von Ai2

Kategorien:

No items found.

Freigegeben:

March 24, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Der schnelle Überblick

Mitteilung von Ai2 über die Veröffentlichung von MolmoPoint-GUI auf Hugging Face.
MolmoPoint-GUI ist ein spezialisiertes Vision-Language Model (VLM) für die GUI-Automatisierung.
Das Modell verwendet Grounding-Tokens anstelle von Koordinaten zur Punktbestimmung.
Es erreicht eine Leistung von 61,1 auf dem ScreenSpotPro-Benchmark.
Die neue Methode verspricht eine intuitivere und robustere Interaktion mit grafischen Benutzeroberflächen.

Revolution in der GUI-Automatisierung: Ai2 präsentiert MolmoPoint-GUI

Das Allen Institute for AI (Ai2) hat kürzlich die Veröffentlichung von MolmoPoint-GUI auf Hugging Face bekannt gegeben. Dieses spezialisierte Vision-Language Model (VLM) stellt einen Fortschritt im Bereich der grafischen Benutzeroberflächen (GUI)-Automatisierung dar, indem es eine innovative Methode zur Punktbestimmung einführt, die auf Grounding-Tokens statt auf traditionellen Koordinaten basiert. Die Entwicklung verspricht eine präzisere und effizientere Interaktion mit digitalen Schnittstellen und erreicht bemerkenswerte Ergebnisse auf relevanten Benchmarks.

Die Herausforderung der präzisen GUI-Interaktion

Die Automatisierung von Aufgaben auf grafischen Benutzeroberflächen ist ein zentrales Anwendungsfeld für KI. Bisherige Vision-Language Models (VLMs) zur GUI-Automatisierung stützen sich oft auf die Generierung von Textkoordinaten oder die Zuordnung von Tokens zu Koordinatenbereichen, um spezifische Elemente auf einem Bildschirm zu identifizieren und mit ihnen zu interagieren. Diese Ansätze können jedoch Limitationen aufweisen, insbesondere bei hohen Auflösungen oder komplexen Layouts. Die Notwendigkeit, ein kompliziertes Koordinatensystem zu erlernen und eine hohe Anzahl von Ausgabetokens zu verarbeiten, kann die Effizienz und Robustheit dieser Modelle beeinträchtigen.

MolmoPoint-GUI: Eine neue Ära der Punktbestimmung

MolmoPoint-GUI von Ai2 geht diese Herausforderungen mit einem neuartigen Ansatz an: der Verwendung von Grounding-Tokens. Anstatt explizite Pixelkoordinaten zu generieren, wählt das Modell direkt visuelle Tokens aus, die das Zielkonzept enthalten. Dieser Prozess erfolgt in einem dreistufigen Verfahren:

Grobauswahl: Das Modell wählt zunächst einen groben Bild- oder Videopatch aus, indem es visuelle Tokens berücksichtigt.
Feinabstimmung: Anschließend wird diese Auswahl auf einen feineren Subpatch präzisiert, unter Verwendung von tieferliegenden ViT-Funktionen.
Endgültige Punktbestimmung: Schließlich prognostiziert das Modell eine genaue Position innerhalb dieses Subpatches.

Diese Methode ist direkter an die interne visuelle Repräsentation des Modells gebunden und erfordert weniger Tokens pro Punkt, was die Dekodierungskosten senkt und die Inferenzlatenz verbessert.

Leistung auf Benchmarks und Effizienzgewinne

MolmoPoint-GUI-8B, die spezialisierte Version des Modells für die GUI-Punktbestimmung, erzielt auf dem ScreenSpotPro-Benchmark einen Wert von 61,1. Dies stellt einen signifikanten Fortschritt in der Präzision der GUI-Interaktion dar, insbesondere im Vergleich zu früheren Modellen, die auf Textkoordinaten basierten. Die Entwickler betonen, dass die Verwendung von Grounding-Tokens das Lernen für die Modelle erleichtert und die Robustheit über verschiedene Auflösungen hinweg erhöht.

Ein weiterer Vorteil dieser Architektur ist die verbesserte Trainingseffizienz. MolmoPoint-Modelle erreichen die Spitzenleistung schneller während des Vortrainings und zeigen eine höhere Stichprobeneffizienz, selbst mit einer geringeren Anzahl von Trainingsbeispielen. Dies ist besonders relevant für B2B-Anwendungen, bei denen die schnelle Anpassung und Bereitstellung von KI-Modellen entscheidend ist.

Datenbasis und Entwicklung

Für das Training des GUI-spezialisierten Modells wurde MolmoPoint-GUISyn entwickelt, ein synthetischer Datensatz mit etwa 36.000 hochauflösenden Screenshots von Desktop-, Web- und mobilen Umgebungen. Dieser Datensatz enthält über 2 Millionen annotierte Punkte und wurde durch die Generierung von HTML-Code mittels eines LLM und die Extraktion von Bounding Boxes mithilfe von Browser-Automatisierungstools erstellt. Die Dichte der Annotationen ermöglicht ein effizientes Training.

Die MolmoPoint-Modellreihe umfasst neben MolmoPoint-GUI-8B auch MolmoPoint-8B für allgemeine Bild- und Videoaufgaben sowie MolmoPoint-Vid-4B, optimiert für Videos. Alle Modelle, der Code und die Daten sind Open Source, was die Forschung und Entwicklung in diesem Bereich weiter fördert.

Anwendungsbereiche und zukünftige Perspektiven

Die Fähigkeit von VLMs, präzise auf visuelle Elemente zu zeigen, ist für eine Vielzahl von Anwendungen von entscheidender Bedeutung:

Robotik: Roboter können Objekte besser greifen und manipulieren.
Agenten für Computerbedienung: KI-Agenten können grafische Benutzeroberflächen effizienter navigieren und bedienen.
Visuelles Reasoning: Modelle können Sprache mit spezifischen Teilen visueller Eingaben verknüpfen.

Die Forschung zeigt, dass Grounding-Tokens eine überlegene Grundlage für multimodale Modelle bieten, die präzise auf visuelle Informationen verweisen müssen. Zukünftige Arbeiten könnten diesen Ansatz auf andere Modalitäten wie Text- oder Audio-Tokens ausweiten, um wichtige Textpassagen hervorzuheben oder auf spezifische Geräusche zu verweisen.

Die Veröffentlichung von MolmoPoint-GUI durch Ai2 auf Hugging Face markiert einen wichtigen Schritt in der Entwicklung von KI-gestützter GUI-Automatisierung. Die verbesserte Präzision, Effizienz und Robustheit, die durch Grounding-Tokens ermöglicht wird, eröffnet neue Möglichkeiten für Unternehmen, komplexe digitale Workflows zu optimieren und die Interaktion mit Software zu revolutionieren.

Bibliographie

- allenai/MolmoPoint-GUI-8B · Hugging Face. (n.d.). Retrieved from https://huggingface.co/allenai/MolmoPoint-GUI-8B - MolmoPoint-GUI Demo - a Hugging Face Space by allenai. (n.d.). Retrieved from https://huggingface.co/spaces/allenai/MolmoPoint-GUI-8B-Demo - allenai/MolmoPoint-GUI-8B · Add eval for Screenspot-Pro. (n.d.). Retrieved from https://huggingface.co/allenai/MolmoPoint-GUI-8B/discussions/1 - MolmoPoint: Better pointing architecture for vision-language models | Ai2. (n.d.). Retrieved from https://allenai.org/blog/molmopoint - allenai.org/papers/molmopoint. (n.d.). Retrieved from https://allenai.org/papers/molmopoint - allenai/MolmoPoint-GUISyn · Datasets at Hugging Face. (n.d.). Retrieved from https://huggingface.co/datasets/allenai/MolmoPoint-GUISyn - [2602.06391v1] POINTS-GUI-G: GUI-Grounding Journey. (n.d.). Retrieved from http://arxiv.org/abs/2602.06391v1 - Paper page - POINTS-GUI-G: GUI-Grounding Journey. (n.d.). Retrieved from https://hugging-face.cn/papers/2602.06391 - Tencent/POINTS-GUI. (n.d.). Retrieved from https://github.com/Tencent/POINTS-GUI - [2502.08226v2] TRISHUL: Towards Region Identification and Screen Hierarchy Understanding for Large VLM based GUI Agents. (n.d.). Retrieved from http://arxiv.org/abs/2502.08226v2