Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Google hat mit der Vorstellung des Gemini 2.5 Computer Use Modells einen signifikanten Schritt in der Entwicklung autonomer KI-Agenten unternommen. Dieses neue Modell, eine Weiterentwicklung des Gemini 2.5 Pro, ist darauf ausgelegt, direkt mit grafischen Benutzeroberflächen (GUIs) in Webbrowsern und mobilen Anwendungen zu interagieren. Es markiert einen Übergang von rein sprachbasierten KI-Systemen zu intelligenten Agenten, die aktiv Aufgaben in digitalen Umgebungen ausführen können.
Das Kernprinzip von Gemini 2.5 Computer Use basiert auf einem iterativen Feedback-Loop. Das System erhält zunächst einen Screenshot der aktuellen Umgebung, die Benutzeranfrage und eine Historie der bisherigen Aktionen. Basierend auf diesen Informationen generiert das Modell UI-Aktionen wie Klicken, Tippen oder Scrollen. Nach jeder Ausführung einer Aktion wird ein neuer Screenshot an das Modell zurückgesendet, und der Prozess wiederholt sich. Diese kontinuierliche Schleife ermöglicht es dem Modell, sich dynamisch an Veränderungen der Benutzeroberfläche anzupassen und komplexe Aufgaben schrittweise zu lösen.
Die zugrundeliegende Technologie nutzt die visuellen Verständnis- und Schlussfolgerungsfähigkeiten von Gemini 2.5 Pro, um Bildschirminhalte zu analysieren und die Absicht des Benutzers zu interpretieren. Dies befähigt den Agenten, Elemente wie Schaltflächen, Textfelder und Dropdown-Menüs zu erkennen und entsprechend zu agieren. Google hat das Modell primär für Webbrowser optimiert, es zeigt jedoch auch vielversprechende Leistungen bei der Steuerung mobiler Benutzeroberflächen. Eine Steuerung auf Ebene des Desktop-Betriebssystems ist derzeit nicht vorgesehen.
Die potenziellen Anwendungsbereiche des Gemini 2.5 Computer Use Modells sind vielfältig. Es kann für Aufgaben wie die Automatisierung der Dateneingabe, das Ausfüllen von Formularen, die Durchführung von Web-Anwendungstests oder die Recherche über mehrere Websites hinweg eingesetzt werden. Google hat bereits interne Anwendungen für das Modell identifiziert, darunter UI-Tests im Rahmen von Project Mariner, der Firebase Testing Agent und der AI Mode in der Google-Suche.
In internen Tests und unabhängigen Benchmarks, wie Online-Mind2Web, WebVoyager und AndroidWorld, soll das Modell eine Genauigkeit von über 70 Prozent mit einer durchschnittlichen Latenz von etwa 225 Sekunden erreichen. Diese Ergebnisse positionieren Gemini 2.5 Computer Use als leistungsstarke Alternative zu bestehenden Lösungen, insbesondere im Bereich der Browserautomatisierung.
Google hat die potenziellen Risiken, die mit der autonomen Steuerung von Schnittstellen einhergehen, berücksichtigt und Sicherheitsmechanismen direkt in das Modell integriert. Zu den identifizierten Risiken gehören absichtlicher Missbrauch durch Benutzer, unerwartetes Modellverhalten und Prompt-Injections im Web. Um diesen entgegenzuwirken, wurde ein schrittweiser Sicherheitsdienst implementiert, der jede vorgeschlagene Aktion vor der Ausführung überprüft.
Entwickler haben zudem die Möglichkeit, über Systemanweisungen eine Benutzerbestätigung für bestimmte risikoreiche Aktionen zu verlangen oder diese komplett zu blockieren. Beispiele hierfür sind das Umgehen von CAPTCHAs oder die Steuerung medizinischer Geräte. Diese Kontrollmechanismen sollen sicherstellen, dass die Nutzung des Modells verantwortungsvoll und sicher erfolgt.
Das Gemini 2.5 Computer Use Modell ist für Entwickler über die Gemini API, Google AI Studio und Vertex AI in einer Vorschauversion zugänglich. Google stellt Dokumentation, Codebeispiele und Referenzimplementierungen zur Verfügung, um den Einstieg zu erleichtern. Eine öffentliche Demo-Umgebung, gehostet von Browserbase, ermöglicht es Interessierten, die Fähigkeiten des Modells in Aktion zu erleben.
Die Preisgestaltung für Gemini 2.5 Computer Use orientiert sich an den Tarifen des Gemini 2.5 Pro Modells, wobei eine tokenbasierte Abrechnung zum Einsatz kommt. Im Gegensatz zur Basisversion von Gemini 2.5 Pro gibt es jedoch in der Vorschauphase keine kostenlose Nutzungsstufe für das Computer Use Modell.
Die Einführung von Gemini 2.5 Computer Use erfolgt in einem dynamischen Umfeld, in dem auch andere Technologieunternehmen an ähnlichen Agenten-Fähigkeiten arbeiten. Während einige Wettbewerber wie OpenAI und Anthropic ihre Modelle auf eine breitere Steuerung von gesamten Betriebssystemen ausrichten, hat sich Google bewusst für eine engere Fokussierung auf Browser-Interaktionen entschieden. Google argumentiert, dass dieser Ansatz zu einer höheren Präzision und Geschwindigkeit bei webbasierten Aufgaben führt, die einen Großteil der digitalen Arbeitsabläufe ausmachen. Die kommenden Monate und die breitere Akzeptanz durch externe Entwickler werden zeigen, wie sich dieser Ansatz in der Praxis bewährt.
Das Gemini 2.5 Computer Use Modell stellt eine wichtige Entwicklung dar, die das Potenzial hat, die Art und Weise, wie Unternehmen und Einzelpersonen mit digitalen Schnittstellen interagieren, grundlegend zu verändern und die Automatisierung komplexer webbasierter Aufgaben voranzutreiben.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen