Google Labs hat in den USA ein neues Experiment im Bereich der generativen KI gestartet: „Whisk“. Dieses Tool ermöglicht es Nutzern, Bilder primär durch visuelle Eingaben zu erstellen, anstatt sich auf langwierige Texteingaben zu verlassen. Der Fokus liegt auf der Kombination verschiedener Bilder, die als Grundlage für die Generierung dienen. Nutzer können Elemente für Motiv, Szene und Stil visuell vorgeben, indem sie Bilder hochladen oder direkt in Whisk generieren. Diese Komponenten lassen sich beliebig kombinieren und bei Bedarf durch zusätzliche Texteingaben verfeinern.
Im Hintergrund analysiert Googles Sprachmodell – vermutlich das kürzlich veröffentlichte Gemini 2.0 Flash – die hochgeladenen Bilder und erstellt automatisch detaillierte Beschreibungen. Diese Beschreibungen dienen dann als Grundlage für Googles fortschrittliches Bildgenerierungsmodell Imagen 3. Imagen 3 konzentriert sich darauf, die wesentlichen Merkmale des Motivs zu erfassen, anstatt eine exakte Kopie der Vorlage zu erstellen. Dadurch entsteht ein kreativer Spielraum für neue Bildkompositionen.
Da Whisk nur die wichtigsten Elemente aus den Ausgangsbildern extrahiert, weist Google darauf hin, dass die Ergebnisse möglicherweise nicht den Erwartungen der Nutzer entsprechen. Die generierten Bilder können in Bezug auf Größe, Gewicht, Frisur oder Hautfarbe von den Originalen abweichen. Google ist sich bewusst, dass diese Details entscheidend für ein Projekt sein können, und ermöglicht es den Nutzern daher, die Textbeschreibungen, die den Bildgenerierungsprozess steuern, einzusehen und zu bearbeiten.
Erste Tests, unter anderem mit Künstlern und Kreativen, deuten darauf hin, dass Whisk eher als neuartiges kreatives Werkzeug denn als herkömmlicher Bildeditor wahrgenommen wird. Google hat Whisk für schnelles visuelles Brainstorming entwickelt, nicht für pixelgenaue Bearbeitung. Nutzer können schnell Dutzende von Optionen generieren und durchsuchen, bevor sie ihre Favoriten speichern.
Tests von The Verge zeigen, dass die Nutzung von Whisk zwar Spaß macht, die Generierung jedes neuen Bildes jedoch einige Sekunden dauert. Diese Verzögerungen könnten vorübergehend sein und möglicherweise auf eine hohe Serverauslastung durch den Ansturm neugieriger Nutzer zurückzuführen sein.
Derzeit ist Whisk nur für Nutzer in den USA als Testversion verfügbar. Interessierte in den USA können das Tool kostenlos unter labs.google/whisk ausprobieren und Feedback geben. Nutzern außerhalb der USA ist der Zugriff derzeit nicht möglich.
Whisk ist Teil von Google Labs, der Experimentierplattform des Unternehmens für KI-Projekte. Hier testet Google praktische Anwendungen für seine KI-Modelle wie Gemini, Imagen und Veo, einschließlich des neuesten Videomodells Veo 2. Während die meisten Projekte in der experimentellen Phase verbleiben, schaffen es einige, zu vollwertigen Produkten zu werden – wie beispielsweise NotebookLM, Googles KI-Forschungsassistent, der kürzlich für die Allgemeinheit freigegeben wurde. Ob Whisk diesen Schritt ebenfalls schafft, bleibt abzuwarten.
Bibliographie: - https://www.benzinga.com/24/12/42514620/googles-veo-2-and-imagen-3-set-new-standards-for-ai-creativity - https://store.google.com/intl/en/ideas/articles/pixel-best-take/ - https://www.theverge.com/2024/8/15/24221218/google-ai-image-generator-imagen-3-available - https://blog.google/products/search/generative-ai-search/ - https://www.youtube.com/watch?v=yb2lSFbHH4g - https://store.google.com/intl/en_uk/ideas/articles/magic-editor/ - https://cloud.google.com/use-cases/text-to-image-ai - https://techcrunch.com/2023/12/06/meta-launches-a-standalone-ai-powered-image-generator/ - https://www.semrush.com/contentshake/content-marketing-blog/best-ai-image-generator/ - https://medium.com/@kalimanie58/google-launches-imagen-2-on-vertex-ai-the-smartest-text-to-image-synthesis-technology-ceedb38761a7