Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
In der Welt der Künstlichen Intelligenz (KI) schreitet die Entwicklung von multimodalen großen Sprachmodellen (MLLMs) rasant voran. Diese Modelle ermöglichen es, Text und Bilder zu verstehen und zu generieren. Ein neuer Schritt in diese Richtung ist die Erweiterung dieser Fähigkeiten auf Videos. Tencent hat mit Divot einen vielversprechenden Ansatz vorgestellt, der die Brücke zwischen Videodaten und Sprachmodellen schlägt.
Videos stellen aufgrund ihrer komplexen räumlichen und zeitlichen Dynamik eine besondere Herausforderung für KI-Modelle dar. Ein effizienter Video-Tokenizer, der die Essenz eines Videos in eine für Sprachmodelle verständliche Form übersetzt, ist der Schlüssel zur Lösung. Bisherige Ansätze mit diskreten Token, die einzelne Frames oder Bewegungen repräsentieren, haben zwar die Videogenerierung vereinfacht, aber gleichzeitig das Verständnis der multimodalen Zusammenhänge beeinträchtigt.
Tencent setzt mit Divot auf einen diffusionsbasierten Ansatz. Divot nutzt einen Diffusionsprozess für selbstüberwachtes Lernen von Videorepräsentationen. Das Prinzip dahinter ist einfach: Wenn ein Diffusionsmodell in der Lage ist, verrauschte Videoclips anhand der von Divot erzeugten Features zu entrauschen, dann hat Divot die relevanten räumlichen und zeitlichen Informationen erfolgreich extrahiert. Das Diffusionsmodell dient dabei nicht nur als Lernhilfe für den Tokenizer, sondern auch als "De-Tokenizer", der die Videorepräsentationen zurück in realistische Videoclips übersetzen kann.
Divot besteht aus einem vortrainierten Vision Transformer (ViT) Encoder, einem räumlich-zeitlichen Transformer und einem Perceiver Resampler. Diese Komponenten extrahieren Videorepräsentationen aus den Videoframes. Die Repräsentationen dienen dann als Grundlage für ein vortrainiertes Video-Diffusionsmodell (DynamiCrafter), das den Rauschanteil in den latenten Repräsentationen der Videoframes vorhersagt. Nach dem Training kann das Diffusionsmodell realistische Videoclips aus Rauschen generieren, indem es die von Divot bereitgestellten Videorepräsentationen als Bedingung verwendet.
Um das Verständnis und die Generierung von Videos in einem einzigen Framework zu ermöglichen, kombiniert Tencent Divot mit einem großen Sprachmodell (Mistral-7B) zu Divot-LLM. Für das Videoverständnis wird Divot-LLM mit einem Next-Word-Prediction-Ziel auf Video-Caption-Daten trainiert. Die Herausforderung besteht darin, die kontinuierlichen Videorepräsentationen für die Videogenerierung mit dem LLM zu modellieren. Hierfür verwendet Tencent ein Gaußsches Mischmodell (GMM), um die Verteilung der Videofeatures abzubilden. Das LLM lernt, die GMM-Parameter vorherzusagen, und während der Inferenz werden Stichproben aus der vorhergesagten GMM-Verteilung gezogen, um Videos mithilfe des De-Tokenizers zu dekodieren.
Erste Tests von Divot-LLM zeigen vielversprechende Ergebnisse im Bereich Videoverständnis und Zero-Shot-Videogenerierung. Durch die Anpassung an spezifische Animationsdatensätze ermöglicht Divot-LLM sogar das "Video-Storytelling", bei dem zusammenhängende Erzählungen und dazugehörige Videos generiert werden. Das Potenzial von Divot ist enorm und eröffnet neue Möglichkeiten für die Interaktion mit und die Erstellung von Videomaterial durch KI.
Die Entwicklung von Divot unterstreicht die rasante Entwicklung im Bereich der multimodalen KI. Für Unternehmen wie Mindverse, die sich auf KI-gestützte Content-Erstellung spezialisiert haben, bieten solche Innovationen spannende Möglichkeiten. Die Integration von fortschrittlichen Video-Tokenizern wie Divot in die Mindverse-Plattform könnte die Erstellung von Videoinhalten revolutionieren und Nutzern völlig neue Wege eröffnen, ihre kreativen Visionen umzusetzen.
Divot steht noch am Anfang seiner Entwicklung, aber die bisherigen Ergebnisse sind vielversprechend. Die Kombination aus Diffusionsmodellen und großen Sprachmodellen eröffnet neue Horizonte für das Verständnis und die Generierung von Videos. Es bleibt spannend zu beobachten, wie sich diese Technologie weiterentwickelt und welche Anwendungen in Zukunft daraus entstehen.
Bibliographie: - Ge, Y., Li, Y., Ge, Y., & Shan, Y. (2024). Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation. arXiv preprint arXiv:2412.04432. - https://github.com/TencentARC/Divot - https://arxiv.org/html/2412.04432v1Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen