Googles neues KI-Modell Gemini 2.5 Computer Use zur autonomen Steuerung digitaler Schnittstellen

Kategorien:

No items found.

Freigegeben:

October 14, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Google hat das neue KI-Modell Gemini 2.5 Computer Use vorgestellt, das in der Lage ist, Web- und mobile Schnittstellen autonom zu steuern.
Das Modell agiert in einem kontinuierlichen Feedback-Loop: Es analysiert Screenshots, Benutzeranfragen und vergangene Aktionen, um UI-Befehle wie Klicken, Tippen oder Scrollen zu generieren.
Primär für Webbrowser optimiert, zeigt es auch vielversprechende Leistungen bei der Steuerung mobiler Benutzeroberflächen, ist jedoch nicht für Desktop-Betriebssystem-Aufgaben konzipiert.
Sicherheitsmechanismen sind integriert, um Missbrauch zu verhindern, einschließlich einer Überprüfung jeder Aktion und der Möglichkeit für Entwickler, Bestätigungen oder Blockaden für risikoreiche Operationen festzulegen.
Entwickler können über die Gemini API, Google AI Studio und Vertex AI auf das Modell zugreifen; eine öffentliche Demo ist über Browserbase verfügbar.
Google positioniert das Modell als präziser und schneller bei webbasierten Aufgaben im Vergleich zu Konkurrenzprodukten, die breiter auf Desktop-Umgebungen abzielen.

Googles Gemini 2.5 Computer Use: Autonome Interaktion mit digitalen Schnittstellen

Google hat mit der Vorstellung des Gemini 2.5 Computer Use Modells einen signifikanten Schritt in der Entwicklung autonomer KI-Agenten unternommen. Dieses neue Modell, eine Weiterentwicklung des Gemini 2.5 Pro, ist darauf ausgelegt, direkt mit grafischen Benutzeroberflächen (GUIs) in Webbrowsern und mobilen Anwendungen zu interagieren. Es markiert einen Übergang von rein sprachbasierten KI-Systemen zu intelligenten Agenten, die aktiv Aufgaben in digitalen Umgebungen ausführen können.

Funktionsweise und technische Grundlagen

Das Kernprinzip von Gemini 2.5 Computer Use basiert auf einem iterativen Feedback-Loop. Das System erhält zunächst einen Screenshot der aktuellen Umgebung, die Benutzeranfrage und eine Historie der bisherigen Aktionen. Basierend auf diesen Informationen generiert das Modell UI-Aktionen wie Klicken, Tippen oder Scrollen. Nach jeder Ausführung einer Aktion wird ein neuer Screenshot an das Modell zurückgesendet, und der Prozess wiederholt sich. Diese kontinuierliche Schleife ermöglicht es dem Modell, sich dynamisch an Veränderungen der Benutzeroberfläche anzupassen und komplexe Aufgaben schrittweise zu lösen.

Die zugrundeliegende Technologie nutzt die visuellen Verständnis- und Schlussfolgerungsfähigkeiten von Gemini 2.5 Pro, um Bildschirminhalte zu analysieren und die Absicht des Benutzers zu interpretieren. Dies befähigt den Agenten, Elemente wie Schaltflächen, Textfelder und Dropdown-Menüs zu erkennen und entsprechend zu agieren. Google hat das Modell primär für Webbrowser optimiert, es zeigt jedoch auch vielversprechende Leistungen bei der Steuerung mobiler Benutzeroberflächen. Eine Steuerung auf Ebene des Desktop-Betriebssystems ist derzeit nicht vorgesehen.

Anwendungsbereiche und Leistungsfähigkeit

Die potenziellen Anwendungsbereiche des Gemini 2.5 Computer Use Modells sind vielfältig. Es kann für Aufgaben wie die Automatisierung der Dateneingabe, das Ausfüllen von Formularen, die Durchführung von Web-Anwendungstests oder die Recherche über mehrere Websites hinweg eingesetzt werden. Google hat bereits interne Anwendungen für das Modell identifiziert, darunter UI-Tests im Rahmen von Project Mariner, der Firebase Testing Agent und der AI Mode in der Google-Suche.

In internen Tests und unabhängigen Benchmarks, wie Online-Mind2Web, WebVoyager und AndroidWorld, soll das Modell eine Genauigkeit von über 70 Prozent mit einer durchschnittlichen Latenz von etwa 225 Sekunden erreichen. Diese Ergebnisse positionieren Gemini 2.5 Computer Use als leistungsstarke Alternative zu bestehenden Lösungen, insbesondere im Bereich der Browserautomatisierung.

Sicherheitsaspekte und Kontrollmechanismen

Google hat die potenziellen Risiken, die mit der autonomen Steuerung von Schnittstellen einhergehen, berücksichtigt und Sicherheitsmechanismen direkt in das Modell integriert. Zu den identifizierten Risiken gehören absichtlicher Missbrauch durch Benutzer, unerwartetes Modellverhalten und Prompt-Injections im Web. Um diesen entgegenzuwirken, wurde ein schrittweiser Sicherheitsdienst implementiert, der jede vorgeschlagene Aktion vor der Ausführung überprüft.

Entwickler haben zudem die Möglichkeit, über Systemanweisungen eine Benutzerbestätigung für bestimmte risikoreiche Aktionen zu verlangen oder diese komplett zu blockieren. Beispiele hierfür sind das Umgehen von CAPTCHAs oder die Steuerung medizinischer Geräte. Diese Kontrollmechanismen sollen sicherstellen, dass die Nutzung des Modells verantwortungsvoll und sicher erfolgt.

Verfügbarkeit für Entwickler

Das Gemini 2.5 Computer Use Modell ist für Entwickler über die Gemini API, Google AI Studio und Vertex AI in einer Vorschauversion zugänglich. Google stellt Dokumentation, Codebeispiele und Referenzimplementierungen zur Verfügung, um den Einstieg zu erleichtern. Eine öffentliche Demo-Umgebung, gehostet von Browserbase, ermöglicht es Interessierten, die Fähigkeiten des Modells in Aktion zu erleben.

Die Preisgestaltung für Gemini 2.5 Computer Use orientiert sich an den Tarifen des Gemini 2.5 Pro Modells, wobei eine tokenbasierte Abrechnung zum Einsatz kommt. Im Gegensatz zur Basisversion von Gemini 2.5 Pro gibt es jedoch in der Vorschauphase keine kostenlose Nutzungsstufe für das Computer Use Modell.

Einordnung im Wettbewerbsumfeld

Die Einführung von Gemini 2.5 Computer Use erfolgt in einem dynamischen Umfeld, in dem auch andere Technologieunternehmen an ähnlichen Agenten-Fähigkeiten arbeiten. Während einige Wettbewerber wie OpenAI und Anthropic ihre Modelle auf eine breitere Steuerung von gesamten Betriebssystemen ausrichten, hat sich Google bewusst für eine engere Fokussierung auf Browser-Interaktionen entschieden. Google argumentiert, dass dieser Ansatz zu einer höheren Präzision und Geschwindigkeit bei webbasierten Aufgaben führt, die einen Großteil der digitalen Arbeitsabläufe ausmachen. Die kommenden Monate und die breitere Akzeptanz durch externe Entwickler werden zeigen, wie sich dieser Ansatz in der Praxis bewährt.

Das Gemini 2.5 Computer Use Modell stellt eine wichtige Entwicklung dar, die das Potenzial hat, die Art und Weise, wie Unternehmen und Einzelpersonen mit digitalen Schnittstellen interagieren, grundlegend zu verändern und die Automatisierung komplexer webbasierter Aufgaben voranzutreiben.

Bibliography

- Maximilian Schreiner, "New Google model to autonomously control browsers and mobile apps", The Decoder. - Emma Roth, "Google's latest AI model uses a web browser like you do", The Verge. - Mike Wheatley, "Google's Gemini 2.5 Computer Use model can navigate the web like a human", SiliconANGLE. - Robert Brown, "Google's Gemini 2.5 'Computer Use' bets on the browser, not the desktop", Implicator.ai. - Vipin Vashisth, "Gemini 2.5 Computer Use: Google's FREE Browser Use AI Agent!", Analytics Vidhya. - Ddos, "Google Unveils Gemini 2.5 Computer Use: The Next-Gen AI Model That Takes Action on Web Interfaces", SecurityOnline.info. - Google DeepMind, "Project Mariner", deepmind.google. - Joe Maring, "You can finally try Google's AI tool that controls your Chrome browser for you", Android Authority. - Maxwell Zeff, "Google unveils Project Mariner: AI agents to use the web for you", TechCrunch.