Tencent stellt Divot vor: Neuer Video-Tokenizer zur Verbesserung des Verständnisses und der Generierung von Videos

Kategorien:

No items found.

Freigegeben:

December 10, 2024

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Tencent präsentiert Divot: Ein diffusionsbasierter Video-Tokenizer für verbessertes Verständnis und Generierung von Videos

In der Welt der Künstlichen Intelligenz (KI) schreitet die Entwicklung von multimodalen großen Sprachmodellen (MLLMs) rasant voran. Diese Modelle ermöglichen es, Text und Bilder zu verstehen und zu generieren. Ein neuer Schritt in diese Richtung ist die Erweiterung dieser Fähigkeiten auf Videos. Tencent hat mit Divot einen vielversprechenden Ansatz vorgestellt, der die Brücke zwischen Videodaten und Sprachmodellen schlägt.

Die Herausforderung der Videoverarbeitung

Videos stellen aufgrund ihrer komplexen räumlichen und zeitlichen Dynamik eine besondere Herausforderung für KI-Modelle dar. Ein effizienter Video-Tokenizer, der die Essenz eines Videos in eine für Sprachmodelle verständliche Form übersetzt, ist der Schlüssel zur Lösung. Bisherige Ansätze mit diskreten Token, die einzelne Frames oder Bewegungen repräsentieren, haben zwar die Videogenerierung vereinfacht, aber gleichzeitig das Verständnis der multimodalen Zusammenhänge beeinträchtigt.

Divot: Ein diffusionsbasierter Ansatz

Tencent setzt mit Divot auf einen diffusionsbasierten Ansatz. Divot nutzt einen Diffusionsprozess für selbstüberwachtes Lernen von Videorepräsentationen. Das Prinzip dahinter ist einfach: Wenn ein Diffusionsmodell in der Lage ist, verrauschte Videoclips anhand der von Divot erzeugten Features zu entrauschen, dann hat Divot die relevanten räumlichen und zeitlichen Informationen erfolgreich extrahiert. Das Diffusionsmodell dient dabei nicht nur als Lernhilfe für den Tokenizer, sondern auch als "De-Tokenizer", der die Videorepräsentationen zurück in realistische Videoclips übersetzen kann.

Die Architektur von Divot

Divot besteht aus einem vortrainierten Vision Transformer (ViT) Encoder, einem räumlich-zeitlichen Transformer und einem Perceiver Resampler. Diese Komponenten extrahieren Videorepräsentationen aus den Videoframes. Die Repräsentationen dienen dann als Grundlage für ein vortrainiertes Video-Diffusionsmodell (DynamiCrafter), das den Rauschanteil in den latenten Repräsentationen der Videoframes vorhersagt. Nach dem Training kann das Diffusionsmodell realistische Videoclips aus Rauschen generieren, indem es die von Divot bereitgestellten Videorepräsentationen als Bedingung verwendet.

Divot-LLM: Videos und Sprache vereint

Um das Verständnis und die Generierung von Videos in einem einzigen Framework zu ermöglichen, kombiniert Tencent Divot mit einem großen Sprachmodell (Mistral-7B) zu Divot-LLM. Für das Videoverständnis wird Divot-LLM mit einem Next-Word-Prediction-Ziel auf Video-Caption-Daten trainiert. Die Herausforderung besteht darin, die kontinuierlichen Videorepräsentationen für die Videogenerierung mit dem LLM zu modellieren. Hierfür verwendet Tencent ein Gaußsches Mischmodell (GMM), um die Verteilung der Videofeatures abzubilden. Das LLM lernt, die GMM-Parameter vorherzusagen, und während der Inferenz werden Stichproben aus der vorhergesagten GMM-Verteilung gezogen, um Videos mithilfe des De-Tokenizers zu dekodieren.

Beeindruckende Ergebnisse und zukünftiges Potenzial

Erste Tests von Divot-LLM zeigen vielversprechende Ergebnisse im Bereich Videoverständnis und Zero-Shot-Videogenerierung. Durch die Anpassung an spezifische Animationsdatensätze ermöglicht Divot-LLM sogar das "Video-Storytelling", bei dem zusammenhängende Erzählungen und dazugehörige Videos generiert werden. Das Potenzial von Divot ist enorm und eröffnet neue Möglichkeiten für die Interaktion mit und die Erstellung von Videomaterial durch KI.

Divot und Mindverse: Eine starke Kombination

Die Entwicklung von Divot unterstreicht die rasante Entwicklung im Bereich der multimodalen KI. Für Unternehmen wie Mindverse, die sich auf KI-gestützte Content-Erstellung spezialisiert haben, bieten solche Innovationen spannende Möglichkeiten. Die Integration von fortschrittlichen Video-Tokenizern wie Divot in die Mindverse-Plattform könnte die Erstellung von Videoinhalten revolutionieren und Nutzern völlig neue Wege eröffnen, ihre kreativen Visionen umzusetzen.

Ausblick

Divot steht noch am Anfang seiner Entwicklung, aber die bisherigen Ergebnisse sind vielversprechend. Die Kombination aus Diffusionsmodellen und großen Sprachmodellen eröffnet neue Horizonte für das Verständnis und die Generierung von Videos. Es bleibt spannend zu beobachten, wie sich diese Technologie weiterentwickelt und welche Anwendungen in Zukunft daraus entstehen.

Bibliographie: - Ge, Y., Li, Y., Ge, Y., & Shan, Y. (2024). Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation. arXiv preprint arXiv:2412.04432. - https://github.com/TencentARC/Divot - https://arxiv.org/html/2412.04432v1