Bytedances Neue Videokünstliche Intelligenz "Goku": Ein Herausforderer für OpenAIs Sora?
Der chinesische Tech-Gigant Bytedance, bekannt für die Kurzvideoplattform TikTok, hat eine neue Künstliche Intelligenz (KI) namens "Goku" vorgestellt, die in der Lage ist, realistische Videos und Bilder aus Textbeschreibungen (Prompts) zu generieren. Darüber hinaus kann Goku auch Bilder in Videos umwandeln. Diese Entwicklung stellt eine potenzielle Herausforderung für OpenAIs Video-KI "Sora" und andere Anbieter in diesem schnell wachsenden Bereich dar.
Bytedance präsentiert erste Ergebnisse von Goku auf einer eigens eingerichteten Website und hat die technischen Details in einem ausführlichen Forschungsbericht veröffentlicht. Das Training der KI erfolgte mithilfe von 160 Millionen Text-Bild-Paaren und 36 Millionen Text-Video-Paaren. Die Trainingsdaten stammen laut Bytedance aus akademischen Datensätzen, öffentlich zugänglichen Internetquellen und von Partnerunternehmen.
Um sowohl Bilder als auch Videos generieren zu können, verwendet Goku eine neuartige Transformer-Architektur, die je nach gewünschtem Output zwischen zwei und acht Milliarden Parameter nutzt. Im Gegensatz zu vielen anderen KI-Bildgeneratoren, die auf Diffusionsmodellen basieren, verwendet Goku ein Verfahren namens "Rectified Flow". Laut Bytedance führt dieser Ansatz zu qualitativ hochwertigeren und konsistenteren Ergebnissen.
In internen Benchmarks, die von Bytedance durchgeführt wurden, schnitt Goku in vielen Bereichen besser ab als OpenAIs Sora und andere Konkurrenzprodukte wie Pika, Kling und Luma. Es ist jedoch wichtig zu beachten, dass solche von den Entwicklern selbst durchgeführten Tests mit Vorsicht zu genießen sind, da sie möglicherweise nicht vollständig objektiv sind. Unabhängige Vergleiche sind notwendig, um die Leistungsfähigkeit von Goku im Vergleich zur Konkurrenz endgültig zu bewerten.
Neben Goku hat Bytedance auch "Goku+" vorgestellt, eine Reihe von darauf aufbauenden Modellen, die die Erstellung von längeren Videoclips mit über 20 Sekunden ermöglichen. Diese sind insbesondere für Werbezwecke interessant, da sie die Generierung realistischer Marketing-Avatare aus Textbeschreibungen ermöglichen. Dank Lippensynchronisation können diese Avatare Produkte oder Dienstleistungen bewerben. Die Bild-zu-Video-Funktion von Goku erlaubt zudem die nahtlose Integration von Produkten in die generierten Clips.
Die Vorstellung von Goku markiert einen weiteren Schritt in der rasanten Entwicklung von generativer KI. Der Wettbewerb in diesem Bereich intensiviert sich, und es bleibt abzuwarten, wie sich Goku im direkten Vergleich mit etablierten Lösungen wie Sora und zukünftigen Entwicklungen behaupten wird. Die Möglichkeit, realistische Videos aus Textbeschreibungen zu erstellen, eröffnet vielfältige Anwendungsmöglichkeiten in Bereichen wie Werbung, Entertainment und Bildung. Gleichzeitig wirft die Technologie auch ethische Fragen auf, etwa im Hinblick auf die Verbreitung von Deepfakes und die potenzielle Verdrängung menschlicher Kreativität.
Quellen:
- t3n.de: Neue Video-KI von Bytedance: Was Goku kann und wie es sich im Vergleich mit OpenAIs Sora schlägt
- finanznachrichten.de: Neue Video-KI von Bytedance: Was Goku kann und wie es sich im Vergleich mit OpenAIs Sora schlägt
- Twitter: @t3n/status/1889927266366357594
- Threads: @t3n_magazin/post/DGAN9RrKgQ1
- t3n.de: Künstliche Intelligenz
- Facebook: Mindverse Facebook Post (Link zur Facebookseite)
- finanznachrichten.de: Konkurrenz für OpenAIs Sora mit diesem Adobe-Tool kann jetzt jeder KI-Videos erstellen
- t3n.de (Startseite)
- the-decoder.de: Bytedance läutet mit neuer Video-KI das Ende von namenlosen Werbegesichtern ein