Jetzt reinschauen – neue Umgebung live

Googles Gemini 2.0 Flash: Fortschritte in der Entwicklung multimodaler KI-Assistenten

Kategorien:
No items found.
Freigegeben:
December 15, 2024

Artikel jetzt als Podcast anhören

Googles Gemini 2.0 Flash: Ein Schritt zum universellen KI-Assistenten?

Google hat mit Gemini 2.0 Flash die nächste Generation seines KI-Modells vorgestellt. Die experimentelle Version ist bereits in der webbasierten Gemini-App auswählbar und soll bald auch in der Smartphone-App verfügbar sein. Gemini 2.0 Flash baut auf dem Vorgängermodell Gemini 1.5 Flash auf und erweitert dessen Fähigkeiten im Bereich der multimodalen Ein- und Ausgaben. Es ist darauf ausgelegt, sowohl Text, Bilder als auch Audiodateien zu verarbeiten und neben Text nun auch Bilder und Audio zu generieren.

Eine weitere Neuerung ist die Fähigkeit von Gemini 2.0 Flash, Tools wie die Google-Suche zu nutzen und benutzerdefinierte Funktionen oder Code auszuführen. Für Entwickler ist die neue Version über die Gemini API in Google AI Studio und Vertex AI zugänglich. Die multimodale Ausgabefunktion ist zunächst nur für ausgewählte Entwickler verfügbar und soll im Januar für alle freigeschaltet werden.

KI-Agenten als Zukunftsvision

Google-CEO Sundar Pichai sieht in Gemini 2.0 den Beginn einer "neuen Ära der Agenten". Er betont die Fortschritte im Bereich der Multimodalität, insbesondere die native Bild- und Audiogenerierung, sowie die Möglichkeit, Tools zu verwenden. Diese Entwicklungen sollen die Grundlage für die Entwicklung von KI-Agenten bilden, die dem Ziel eines universellen Assistenten näherkommen.

Mit der Integration von Gemini 2.0 in verschiedene Google-Dienste, wie beispielsweise die KI Overviews in der Google-Suche, wird die Technologie für eine große Nutzergruppe zugänglich. Auch Google Workspace und andere Produkte des Unternehmens sollen von der neuen KI-Generation profitieren.

Von der Informationsverarbeitung zur Aufgabenbewältigung

Während die erste Generation von Gemini, Gemini 1.0, primär auf die Organisation und das Verstehen von Informationen ausgerichtet war, liegt der Fokus bei Gemini 2.0 auf der praktischen Anwendbarkeit und der Erledigung von Aufgaben. So könnte ein KI-Agent beispielsweise die benötigten Komponenten für ein Hobbyprojekt in Online-Shops finden und in den Warenkorb legen. Der Bestellvorgang selbst würde jedoch weiterhin vom Nutzer durchgeführt werden.

Das "Project Mariner" demonstriert die Fähigkeiten von Gemini 2.0 als KI-Assistent im Browser. Als Chrome-Erweiterung kann Mariner Webseiten navigieren, Text, Bilder und Formulare verarbeiten sowie komplexe Aufgaben ausführen. Bei sensiblen Aktionen, wie beispielsweise einem Kauf, ist eine Bestätigung durch den Nutzer erforderlich. Die Denkprozesse des Agenten werden in einer seitlichen Anzeige visualisiert.

Weitere KI-Projekte und -Agenten

Neben "Project Mariner" arbeitet Google an weiteren KI-Agenten. "Project Astra" ist ein universeller Assistent, der mehrsprachige Konversationen führen und auf Informationen aus vergangenen Gesprächen zugreifen kann. Er kann Google-Dienste wie Suche, Lens und Maps nutzen, um Fragen zu beantworten oder Orte zu identifizieren. Der Agent soll zunächst auf Smartphones und später auch auf Datenbrillen verfügbar sein.

Ein weiterer Agent, "Jules", unterstützt Entwickler bei der Fehlersuche und Programmierung. Er kann Code analysieren und Änderungen vorschlagen, die vor der Übernahme vom Entwickler geprüft werden können.

Schrittweise Einführung und Sicherheitsvorkehrungen

Google betont, dass die neuen Funktionen von Gemini schrittweise und unter Berücksichtigung von Sicherheitsaspekten eingeführt werden. Die KI-Agenten befinden sich noch in der Entwicklungsphase und arbeiten derzeit langsamer als ein Mensch. Der Zugang ist zunächst auf eine kleine Testgruppe beschränkt.

Die Entwicklung von Gemini 2.0 Flash unterstreicht Googles Ambitionen im Bereich der Künstlichen Intelligenz und markiert einen weiteren Schritt in Richtung eines universellen KI-Assistenten. Die multimodale Verarbeitung, die Tool-Nutzung und die Fähigkeit, Aufgaben zu automatisieren, eröffnen neue Möglichkeiten für die Interaktion mit Technologie und könnten die Art und Weise, wie wir Informationen suchen und Aufgaben erledigen, grundlegend verändern.

Bibliographie: https://www.derstandard.de/story/3000000248908/gemini-20-deep-research-mariner-und-mehr-die-naechste-ki-generation-von-google-ist-da https://stadt-bremerhaven.de/google-gemini-2-0-vorgestellt-effizienter-maechtiger-und-bald-allgegenwaertig/ https://www.blick.ch/digital/jetzt-kommen-die-ki-agenten-gemini-2-0-googles-ki-macht-sich-selbststaendig-id20403204.html https://live.vodafone.de/digital/internet/neue-google-ki-kann-selbststaendig-aufgaben-erledigen/12919077 https://www.flz.de/neue-google-ki-kann-selbststaendig-aufgaben-erledigen/cnt-id-ps-626d9fdd-9390-4879-b077-615bc37d84ba https://onlinemarketing.de/technologie/google-gemini-2-0 https://the-decoder.de/google-optimiert-gemini-ki-modelle-und-senkt-preise-deutlich/ https://blog.google/intl/de-de/unternehmen/technologie/gemini-modell-io-2024/
Was bedeutet das?

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
Herzlichen Dank! Deine Nachricht ist eingegangen!
Oops! Du hast wohl was vergessen, versuche es nochmal.