Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die textgesteuerte Videogenerierung hat die Filmproduktion transformiert, indem sie es Nutzern ermöglicht, filmische Sequenzen mittels natürlicher Sprache zu erstellen. Eine zentrale Herausforderung in diesem Bereich, insbesondere bei Multi-Shot-Szenarien, bleibt jedoch die präzise Steuerung der Kamera. Bestehende Methoden zeigen oftmals Einschränkungen bei der genauen Umsetzung textueller Kameraanweisungen oder bei der Sicherstellung einer einheitlichen Koordinatensystem-Referenz über mehrere Einstellungen hinweg. Das Forschungsprojekt ShotVerse, vorgestellt in einem aktuellen Paper, adressiert diese Problematik mit einem neuen „Plan-then-Control“-Framework, das darauf abzielt, die Lücke zwischen narrativer Absicht und präziser geometrischer Ausführung zu schließen.
Die Erstellung von Videos auf Basis von Textbeschreibungen ist ein sich schnell entwickelndes Feld. Während die Generierung von Inhalten immer einfacher wird, bleibt die Rolle des Kameramanns – die präzise Umsetzung filmischer Kamerasteuerung – ein Engpass. Implizite Textaufforderungen reichen oft nicht aus, um die gewünschte Präzision zu erreichen. Eine explizite Trajektorienkonditionierung erfordert hingegen einen erheblichen manuellen Aufwand und kann bei aktuellen Modellen zu Fehlern führen. Insbesondere bei Multi-Shot-Szenarien, wo verschiedene Kameraeinstellungen nahtlos ineinander übergehen sollen, sind Herausforderungen wie die Aufrechterhaltung eines einheitlichen globalen Koordinatensystems und die Einhaltung filmischer Muster evident.
Die Forscher hinter ShotVerse schlagen einen datenzentrierten Paradigmenwechsel vor. Sie argumentieren, dass die Kombination aus Bildunterschriften, Kameratrajektorien und Videos (Caption, Trajectory, Video) eine gemeinsame Verteilung bildet, die eine automatisierte Planung und präzise Ausführung ermöglicht. Basierend auf dieser Erkenntnis wurde ShotVerse als „Plan-then-Control“-Framework entwickelt, das die Generierung in zwei kooperierende Agenten unterteilt:
Ein zentraler Aspekt von ShotVerse ist die Entwicklung einer robusten Datengrundlage. Da es an geeigneten Datensätzen mangelt, die semantische Beschreibungen mit global vereinheitlichten Kameratrajektorien verknüpfen, wurde ShotVerse-Bench erstellt. Dieser Datensatz umfasst 20.500 Clips aus professionellen Filmproduktionen, die hohe kinematographische Standards erfüllen. Eine automatisierte Pipeline zur Multi-Shot-Kamerakalibrierung wurde entwickelt, um einzelne Shot-Trajektorien in einem globalen Koordinatensystem zu vereinheitlichen. Dies ermöglicht die Schaffung eines hochpräzisen Datensatzes, der sowohl für das Training als auch für die Evaluation des Frameworks dient.
Das ShotVerse-Framework entkoppelt die Kamerasteuerung in Multi-Shot-Szenarien in eine Planungs- und eine Steuerungsphase. Dies überbrückt die Diskrepanz zwischen unzuverlässiger textueller Kamerasteuerung und dem aufwändigen manuellen Plotten.
Der Planer modelliert die bedingte Wahrscheinlichkeit P(Trajektorie | Bildunterschrift), um filmische, global vereinheitlichte Trajektorien aus hierarchischen Textbeschreibungen zu synthetisieren. Um dies zu erreichen, werden kritische Einschränkungen bestehender Paradigmen angegangen:
Der Controller modelliert P(Video | Bildunterschrift, Trajektorie), um die geplanten Trajektorien in Multi-Shot-Videos zu rendern. Die Herausforderung hierbei ist die korrekte Ausführung komplexer filmischer Trajektorien, die für vortrainierte Videomodelle oft neue Muster darstellen. Die Lösung umfasst:
Die Bewertung von ShotVerse erfolgte mittels eines dreistufigen Protokolls:
Track A: Text-to-Trajectory
Dieser Track bewertet die Fähigkeit des Planers, narrative Absichten in explizite Kameratrajektorien zu übersetzen. ShotVerse erzielte hierbei die besten Ergebnisse im Vergleich zu Referenzmethoden wie CCD, E.T., Director3D und GenDoP. Die VLM-gesteuerte Planung zeigte eine starke domänenübergreifende Generalisierung.
Track B: Trajectory-to-Video
Dieser Track untersucht die Ausführungsgenauigkeit des Controllers basierend auf den vorgegebenen Trajektorien. Der ShotVerse-Controller erreichte die niedrigsten Fehler bei Translation und Rotation sowie die höchste Koordinaten-Ausrichtungsbewertung (CAS), was auf eine verbesserte Konsistenz über verschiedene Einstellungen hinweg hindeutet. Im Vergleich dazu zeigten Single-Shot-Baselines wie MotionCtrl und CameraCtrl höhere Trajektorienfehler aufgrund mangelnder Cross-Shot-Koordination.
Track C: Text-to-Video
Dieser Track misst die End-to-End-Leistung der integrierten Planung und Ausführung. ShotVerse übertraf sowohl Open-Source- als auch kommerzielle Baselines in Bezug auf ästhetische Qualität und erzielte die niedrigste FVD (Fréchet Video Distance), was auf eine hohe temporale Wiedergabetreue hinweist. Die 4D RoPE-Strategie führte zu einer signifikanten Verbesserung der Shot Transition Accuracy. VLM-basierte Bewertungen und Nutzerstudien bestätigten die überlegene filmische Qualität von ShotVerse in allen vier Dimensionen: Angemessenheit des Bewegungstyps, Dauer der Bewegung, Betonung und Auffälligkeit des Motivs sowie filmisches Tempo.
ShotVerse stellt einen bedeutenden Fortschritt in der datenzentrierten Generierung von filmischen Multi-Shot-Videos dar. Durch die Entkopplung der komplexen räumlichen Logik in eine VLM-gesteuerte Planungsphase und eine geometrie-bewusste Rendering-Phase überbrückt das Framework die Lücke zwischen hochrangiger narrativer Absicht und präziser geometrischer Ausführung. Der ShotVerse-Bench Datensatz und die entwickelte Kalibrierungspipeline bieten eine entscheidende Grundlage für die Weiterentwicklung der KI in der Filmgrammatik.
Trotz der erzielten Erfolge identifizieren die Forscher auch Limitationen und zukünftige Forschungsrichtungen. Dazu gehören die weitere Verbesserung der Szene-Persistenz bei langen Kontexten, die Skalierbarkeit des holistischen Paradigmas auf Multi-Szenen- und unendlich lange Generierungen sowie die Generalisierung auf komplexe Szenarien wie hochdichte Menschenmengen.
Die Ergebnisse von ShotVerse zeigen das Potenzial, die Effizienz und Qualität der Videoproduktion durch KI-gesteuerte Kamerasteuerung erheblich zu steigern, was für professionelle Anwendungsfälle im B2B-Bereich von großer Relevanz ist.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen