Jetzt reinschauen – neue Umgebung live

Google stellt Gemini 2.0 vor: Fortschritte in der KI-Entwicklung

Kategorien:
No items found.
Freigegeben:
December 15, 2024

Artikel jetzt als Podcast anhören

Die nächste Stufe der KI: Google präsentiert Gemini 2.0

Mit Gemini 2.0 läutet Google eine neue Ära der KI ein. Das neue Modell, Nachfolger des im Dezember 2022 veröffentlichten Gemini 1.0, verspricht transformative Fortschritte in den Bereichen Multimodalität, Handlungsfähigkeit und Benutzerfreundlichkeit. Google CEO Sundar Pichai betont, dass Gemini 2.0 Informationen nicht nur organisiert und versteht, wie sein Vorgänger, sondern sie auch deutlich nützlicher macht.

Von der Informationsverarbeitung zur Handlungsfähigkeit

Gemini 1.0 war Googles erstes nativ multimodales KI-Modell, das Text, Video, Bilder, Audio und Code verarbeiten konnte. Die verbesserte Version 1.5 fand mit ihrem erweiterten Kontextverständnis, insbesondere in Anwendungen wie NotebookLM, breite Anerkennung bei Entwicklern. Gemini 2.0 geht nun einen Schritt weiter und positioniert sich als universeller Assistent. Das Modell soll native Bild- und Audiogenerierung, verbesserte Denk- und Planungsfähigkeiten sowie Entscheidungsfindung in realen Szenarien ermöglichen. Pichai bezeichnet dies als Beginn des „Zeitalters der handlungsfähigen KI". Handlungsfähige Modelle, so Pichai, verstehen die Welt besser, denken vorausschauend und können im Auftrag des Benutzers – unter dessen Aufsicht – Handlungen ausführen.

Gemini 2.0 Flash: Experimentelle Phase und Verfügbarkeit

Das Herzstück der Ankündigung ist die experimentelle Veröffentlichung von Gemini 2.0 Flash, dem Flaggschiff der zweiten Gemini-Generation. Es baut auf den Stärken seiner Vorgänger auf und bietet schnellere Reaktionszeiten und verbesserte Leistung. Gemini 2.0 Flash unterstützt multimodale Ein- und Ausgaben, einschließlich der Generierung von Bildern in Kombination mit Text und der Produktion von steuerbarem, mehrsprachigem Text-to-Speech-Audio. Die Integration von Tools wie der Google-Suche und benutzerdefinierten Funktionen von Drittanbietern ist ebenfalls vorgesehen.

Entwicklern und Unternehmen wird Gemini 2.0 Flash über die Gemini API in Google AI Studio und Vertex AI zur Verfügung gestellt. Größere Modellvarianten sollen im Januar 2024 folgen. Für die breite Öffentlichkeit ist eine Chat-optimierte Version von 2.0 Flash in der Gemini App verfügbar, zunächst für Desktop und im Web, eine mobile App ist in Planung. Auch die Google-Suche wird mit Gemini 2.0 erweitert und soll komplexe Anfragen wie mathematische Probleme, Programmierfragen und multimodale Suchanfragen besser beantworten können.

Neue Tools und Anwendungen

Mit Gemini 2.0 werden neue Tools eingeführt, die dessen Potenzial demonstrieren. "Deep Research" fungiert als KI-Forschungsassistent, der komplexe Themen recherchiert und die Ergebnisse in umfassenden Berichten zusammenfasst. Die Google-Suche wird um KI-gestützte Übersichten erweitert, die mehrschichtige Benutzeranfragen bearbeiten können.

Das Training von Gemini 2.0 erfolgte auf Googles Trillium TPUs der sechsten Generation. Diese stehen nun auch externen Entwicklern zur Verfügung.

Experimentelle Prototypen: Die Zukunft der Mensch-KI-Kollaboration

Google testet "handlungsfähige" Prototypen, die die Zukunft der Mensch-KI-Zusammenarbeit erforschen:

Project Astra: Ein universeller KI-Assistent, der auf Android getestet wird. Er nutzt das multimodale Verständnis von Gemini 2.0 für verbesserte Interaktionen in der realen Welt. Der Fokus liegt auf mehrsprachigen Dialogen, der Erinnerung an frühere Konversationen und der Integration von Google-Tools. Zukünftige Anwendungen in Wearables, wie KI-Brillen, werden erforscht. Project Mariner: Ein experimenteller Webbrowser-Assistent, der Gemini 2.0 nutzt, um Text, Bilder und interaktive Elemente im Browser zu verarbeiten. Erste Tests zeigen eine hohe Erfolgsquote bei der Ausführung von Webaufgaben. Die Sicherheit und Benutzerfreundlichkeit stehen im Fokus der Entwicklung. Jules: Ein KI-Assistent für Entwickler, der in GitHub-Workflows integriert ist. Er kann selbstständig Lösungsvorschläge unterbreiten, Pläne erstellen und Code-basierte Aufgaben ausführen – stets unter menschlicher Aufsicht.

Gaming und Robotik

Google DeepMind arbeitet mit Gaming-Partnern wie Supercell an intelligenten Spielagenten, die mit Gemini 2.0 in Echtzeit Spielaktionen interpretieren, Strategien vorschlagen und auf externes Wissen zugreifen können. Auch im Bereich Robotik wird das räumliche Denkvermögen von Gemini 2.0 erforscht.

Verantwortung und Sicherheit

Google betont die Bedeutung von Sicherheit und Ethik in der KI-Entwicklung. Gemini 2.0 wurde umfangreichen Risikobewertungen unterzogen. Die Denkfähigkeiten des Modells ermöglichen "Red-Teaming", um Sicherheitslücken zu identifizieren. Google arbeitet an Schutzmechanismen für die Privatsphäre, um Missbrauch zu verhindern. Bibliographie artificialintelligence-news.com/news/google-ushers-in-gemini-era-ai-advancements/ linkedin.com/pulse/googles-gemini-ai-ushering-new-era-agents-future-beyond-kemibaro-fn4ef creativestrategies.com/research/google-i-o-2024-ushering-in-the-gemini-era/ aimagazine.com/articles/how-googles-ai-plans-to-take-over-computers hospitalitynet.org/opinion/4124969.html laptopmag.com/software/what-are-agentive-capabilities-the-buzzword-at-the-heart-of-googles-new-gemini-search-focus youtube.com/watch?v=jlnpn0SXpHA nogood.io/2023/12/15/google-gemini/ solulab.com/understanding-google-gemini/ uctoday.com/collaboration/google-gemini-vs-bard-the-main-differences/

Was bedeutet das?

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.