Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die präzise Steuerung der Kamera ist ein entscheidender Faktor für die Erstellung ausdrucksstarker und filmischer Videos. Bisherige Methoden zur Kamerasteuerung in der KI-gestützten Videogenerierung basieren oft auf der Angabe expliziter Kameraparameter. Diese können jedoch, insbesondere bei komplexen Kamerabewegungen, für Anwenderinnen und Anwender umständlich zu handhaben sein. Eine neue Entwicklung namens CamCloneMaster, vorgestellt von einem Forschungsteam um Yawen Luo, verspricht hier eine intuitivere Lösung. Dieses Framework ermöglicht es, Kamerabewegungen aus Referenzvideos zu replizieren, ohne dass detaillierte Kameraparameter oder ein aufwendiges Fine-Tuning zur Laufzeit erforderlich sind.
CamCloneMaster ist als einheitliches Framework konzipiert, das referenzbasierte Kamerasteuerung sowohl für die Bild-zu-Video (I2V)- als auch für die Video-zu-Video (V2V)-Generierung unterstützt. Die Kernidee besteht darin, die Kamerabewegungen aus einem Referenzvideo zu extrahieren und diese auf neue Inhalte zu übertragen. Dies schließt die Übertragung auf statische Bilder zur Erzeugung dynamischer Videos (I2V) oder auf andere Videos zur Änderung der Kamerabewegung (V2V) ein.
Das Framework basiert auf einer Transformer-basierten latenten Diffusionsarchitektur, genauer gesagt einem Diffusion Transformer (DiT), der mit dem Rectified Flow-Objektiv trainiert wird. Die Architektur umfasst einen 3D Variational Auto-Encoder (VAE) zur Umwandlung von Videos in einen latenten Raum und umgekehrt. DiT-Blöcke, bestehend aus 2D räumlicher Selbstaufmerksamkeit, 3D räumlich-temporaler Aufmerksamkeit, Kreuz-Aufmerksamkeit und Feed-Forward-Netzwerken (FFNs), sind dabei zentrale Komponenten.
Die Integration der Kamerabewegung erfolgt über eine Token-Verkettungsstrategie. Referenzvideos werden zunächst mittels des 3D VAE in bedingte Latents umgewandelt. Diese bedingten Latents werden dann zusammen mit dem verrauschten Latent als Tokens entlang der Frame-Dimension verkettet. Dieser Ansatz ermöglicht es den 3D räumlich-temporalen Aufmerksamkeitslayern innerhalb der DiT-Blöcke, die Beziehung zwischen Rausch- und Bedingungs-Tokens direkt zu modellieren. Dies ist eine parameter-effiziente Methode, da sie die bestehende DiT-Architektur wiederverwendet und keine zusätzlichen Kontrollmodule einführt.
Ein wesentlicher Beitrag von CamCloneMaster ist die Einführung des "Camera Clone Dataset". Dieser groß angelegte synthetische Datensatz wurde speziell für das Lernen von Kameraklonen entwickelt und umfasst eine breite Vielfalt an Szenen, Subjekten und Kamerabewegungen. Die Erstellung dieses Datensatzes erfolgte mittels Unreal Engine 5, um reale Szenarien realistisch nachzubilden.
Der Datensatz besteht aus dreifachen Video-Sets: einem Kamerabewegungs-Referenzvideo (V_cam), einem Inhalts-Referenzvideo (V_cont) und einem Zielvideo (V), das die Szene in V_cont mit derselben Kamerabewegung wie V_cam neu aufnimmt. Die Konstruktion des Datensatzes berücksichtigt zwei Hauptanforderungen:
Insgesamt umfasst das Camera Clone Dataset 391.000 visuell authentische Videos von 39.100 verschiedenen Orten in 40 Szenen mit 97.750 unterschiedlichen Kameratrajektorien. Basierend auf diesen Videos wurden 1.155.000 dreifache Video-Sets erstellt. Jedes Video hat eine Auflösung von 576 x 1.008 Pixeln und 77 Frames.
Die Kameratrajektorien im Datensatz umfassen verschiedene Typen, darunter einfache Schwenks/Neigungen, Rollbewegungen, Übersetzungen entlang der Achsen, orbitale Pfade und zufällige Trajektorien, die durch Splines interpoliert werden. Diese Vielfalt stellt sicher, dass das Modell eine breite Palette von Kamerabewegungen lernen kann.
Das Training von CamCloneMaster erfolgt durch Fine-Tuning eines Basis-Bild-zu-Video-Diffusionsmodells auf dem Camera Clone Dataset. Um die generativen Fähigkeiten des Basismodells zu erhalten, während das Klonen der Kamera erlernt wird, werden nur die 3D räumlich-temporalen Aufmerksamkeitslayer innerhalb der DiT-Blöcke feinabgestimmt, während andere Parameter eingefroren bleiben. Das Training wird mit einer ausgewogenen Mischung aus 50 % kamera-gesteuerten I2V- und 50 % V2V-Regenerationsbeispielen durchgeführt.
Umfassende Experimente wurden durchgeführt, um CamCloneMaster zu evaluieren. Dabei kamen Testsets wie RealEstate10K (für Kamerabewegungsreferenzen) und Koala-36M (für Inhaltsreferenzen) zum Einsatz. Quantitative Metriken umfassten:
Die Ergebnisse zeigen, dass CamCloneMaster herkömmliche parameterbasierte Methoden (wie CameraCtrl, CamI2V, DaS, ReCamMaster, TrajectoryCrafter) sowie trainingsfreie referenzbasierte Methoden (wie MotionClone) übertrifft. Dies gilt sowohl für die Kameragenauigkeit als auch für die visuelle Qualität und die dynamische/Ansichtskonsistenz.
Nutzerstudien bestätigten ebenfalls die Wirksamkeit der Methode. Videos, die mit CamCloneMaster generiert wurden, wurden von Nutzerinnen und Nutzern hinsichtlich Kameragenauigkeit, Video-Text-Konsistenz und temporaler Konsistenz gegenüber den Baselines bevorzugt. Dies unterstreicht den Vorteil des referenzbasierten Ansatzes gegenüber der Notwendigkeit, genaue Kameraparameter manuell zu spezifizieren.
Ablationsstudien zeigten zudem, dass die Token-Verkettungsstrategie entlang der Frame-Dimension anderen Ansätzen überlegen ist, da sie globale Videoeigenschaften wie Kamerabewegung über alle Layer hinweg effektiver erfasst.
Die Fähigkeit von CamCloneMaster, Kamerabewegungen präzise zu klonen, eröffnet verschiedene praktische Anwendungsmöglichkeiten in der Videoproduktion und -bearbeitung:
Die technische Architektur von CamCloneMaster gliedert sich in Bewegungs-Extraktion, Bewegungs-Repräsentation und Bewegungs-Anwendung. Ein Bewegungscodierer analysiert Referenzvideos und extrahiert Kamerabewegungsparameter. Diese werden in sequenziellen Bewegungsrepräsentationen gespeichert, die unabhängig vom visuellen Inhalt sind. Ein Generierungsmodul akzeptiert diese Bewegungsrepräsentationen und Zielinhalte, um Videos zu erzeugen, bei denen die spezifizierte Bewegung auf den Inhalt angewendet wird.
Die Integration in bestehende Workflows ist flexibel gestaltet. Referenzvideos können aus professioneller Kinematographie, früheren Projekten oder speziell aufgenommenem Material stammen. Nach der Extraktion der Bewegungsprofile können diese auf statische Bilder (I2V) oder andere Videos (V2V) angewendet werden. Der Prozess beinhaltet eine Qualitätsbewertung, um sicherzustellen, dass die generierte Kamerabewegung den Referenzmerkmalen entspricht und sich natürlich in den Inhalt einfügt. Die Iteration ist ein wichtiger Bestandteil, um die Ergebnisse zu verfeinern und verschiedene Kombinationen von Bewegung und Inhalt zu explorieren.
Obwohl CamCloneMaster eine präzise Kamerasteuerung ermöglicht, bestehen einige Limitationen. Extreme Kamerabewegungen, sehr schnelle Bewegungen oder ungewöhnliche Kombinationen können das System herausfordern. Die Qualität der Generierung kann auch von der Komplexität des Inhalts abhängen, wobei einfachere Szenen oft bessere Ergebnisse liefern. Die Dauer der Kamerabewegungen kann ebenfalls eine Rolle spielen, da sehr lange Bewegungen möglicherweise zu Qualitätseinbußen oder temporaler Inkonsistenz führen können. Das System konzentriert sich zudem primär auf Kamerabewegungen und weniger auf andere kinematografische Aspekte wie Beleuchtungsänderungen oder Fokusanpassungen.
Zukünftige Entwicklungen könnten die Unterstützung komplexerer Kamerabewegungen umfassen, die Implementierung von Echtzeit- oder Near-Echtzeit-Verarbeitung für interaktive Workflows, die Integration mit weiteren kinematografischen Steuerungen und die Unterstützung höherer Auflösungen. Auch die Möglichkeit zur interaktiven Verfeinerung extrahierter Bewegungen könnte die Flexibilität für Anwenderinnen und Anwender erhöhen.
CamCloneMaster stellt einen signifikanten Fortschritt in der präzisen Kamerasteuerung für die KI-Videogenerierung dar. Durch seinen referenzbasierten Ansatz überbrückt es die Lücke zwischen vagen Textbeschreibungen und der Notwendigkeit exakter Bewegungsspezifikationen. Die Fähigkeit, Kamerabewegungen aus Referenzvideos zu klonen und auf neue Inhalte anzuwenden, bietet Filmemachern und Content-Erstellern ein leistungsstarkes Werkzeug zur Erzielung konsistenter und qualitativ hochwertiger visueller Ergebnisse. Die Entwicklung des Camera Clone Datasets und die robuste Architektur des Frameworks legen eine solide Grundlage für weitere Innovationen in diesem Bereich.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen