Googles Whisk: Ein neuer Ansatz zur visuellen Bildgenerierung

Kategorien:

No items found.

Freigegeben:

December 17, 2024

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Googles „Whisk“: Bildgenerierung durch Kombination mehrerer visueller Vorgaben

Google Labs hat in den USA ein neues Experiment im Bereich der generativen KI gestartet: „Whisk“. Dieses Tool ermöglicht es Nutzern, Bilder primär durch visuelle Eingaben zu erstellen, anstatt sich auf langwierige Texteingaben zu verlassen. Der Fokus liegt auf der Kombination verschiedener Bilder, die als Grundlage für die Generierung dienen. Nutzer können Elemente für Motiv, Szene und Stil visuell vorgeben, indem sie Bilder hochladen oder direkt in Whisk generieren. Diese Komponenten lassen sich beliebig kombinieren und bei Bedarf durch zusätzliche Texteingaben verfeinern.

Im Hintergrund analysiert Googles Sprachmodell – vermutlich das kürzlich veröffentlichte Gemini 2.0 Flash – die hochgeladenen Bilder und erstellt automatisch detaillierte Beschreibungen. Diese Beschreibungen dienen dann als Grundlage für Googles fortschrittliches Bildgenerierungsmodell Imagen 3. Imagen 3 konzentriert sich darauf, die wesentlichen Merkmale des Motivs zu erfassen, anstatt eine exakte Kopie der Vorlage zu erstellen. Dadurch entsteht ein kreativer Spielraum für neue Bildkompositionen.

Kreatives Werkzeug, kein perfekter Kopierer

Da Whisk nur die wichtigsten Elemente aus den Ausgangsbildern extrahiert, weist Google darauf hin, dass die Ergebnisse möglicherweise nicht den Erwartungen der Nutzer entsprechen. Die generierten Bilder können in Bezug auf Größe, Gewicht, Frisur oder Hautfarbe von den Originalen abweichen. Google ist sich bewusst, dass diese Details entscheidend für ein Projekt sein können, und ermöglicht es den Nutzern daher, die Textbeschreibungen, die den Bildgenerierungsprozess steuern, einzusehen und zu bearbeiten.

Erste Tests, unter anderem mit Künstlern und Kreativen, deuten darauf hin, dass Whisk eher als neuartiges kreatives Werkzeug denn als herkömmlicher Bildeditor wahrgenommen wird. Google hat Whisk für schnelles visuelles Brainstorming entwickelt, nicht für pixelgenaue Bearbeitung. Nutzer können schnell Dutzende von Optionen generieren und durchsuchen, bevor sie ihre Favoriten speichern.

Tests von The Verge zeigen, dass die Nutzung von Whisk zwar Spaß macht, die Generierung jedes neuen Bildes jedoch einige Sekunden dauert. Diese Verzögerungen könnten vorübergehend sein und möglicherweise auf eine hohe Serverauslastung durch den Ansturm neugieriger Nutzer zurückzuführen sein.

Verfügbarkeit und Zukunft von Whisk

Derzeit ist Whisk nur für Nutzer in den USA als Testversion verfügbar. Interessierte in den USA können das Tool kostenlos unter labs.google/whisk ausprobieren und Feedback geben. Nutzern außerhalb der USA ist der Zugriff derzeit nicht möglich.

Whisk ist Teil von Google Labs, der Experimentierplattform des Unternehmens für KI-Projekte. Hier testet Google praktische Anwendungen für seine KI-Modelle wie Gemini, Imagen und Veo, einschließlich des neuesten Videomodells Veo 2. Während die meisten Projekte in der experimentellen Phase verbleiben, schaffen es einige, zu vollwertigen Produkten zu werden – wie beispielsweise NotebookLM, Googles KI-Forschungsassistent, der kürzlich für die Allgemeinheit freigegeben wurde. Ob Whisk diesen Schritt ebenfalls schafft, bleibt abzuwarten.

Bibliographie: - https://www.benzinga.com/24/12/42514620/googles-veo-2-and-imagen-3-set-new-standards-for-ai-creativity - https://store.google.com/intl/en/ideas/articles/pixel-best-take/ - https://www.theverge.com/2024/8/15/24221218/google-ai-image-generator-imagen-3-available - https://blog.google/products/search/generative-ai-search/ - https://www.youtube.com/watch?v=yb2lSFbHH4g - https://store.google.com/intl/en_uk/ideas/articles/magic-editor/ - https://cloud.google.com/use-cases/text-to-image-ai - https://techcrunch.com/2023/12/06/meta-launches-a-standalone-ai-powered-image-generator/ - https://www.semrush.com/contentshake/content-marketing-blog/best-ai-image-generator/ - https://medium.com/@kalimanie58/google-launches-imagen-2-on-vertex-ai-the-smartest-text-to-image-synthesis-technology-ceedb38761a7