Die Videogenerierung hat in den letzten Jahren rasante Fortschritte gemacht. Ein wichtiger Aspekt, der jedoch bisher noch nicht umfassend adressiert wurde, ist die 4D-Kontrolle über generierte Videos. Dies würde den Einsatz komplexer Kameraführungen, wie Multi-Kamera-Perspektiven oder Dolly-Zoom-Effekte, ermöglichen und die kreativen Möglichkeiten der Videoproduktion deutlich erweitern. Ein vielversprechender Ansatz zur Lösung dieser Herausforderung wird im Paper "GS-DiT: Advancing Video Generation with Pseudo 4D Gaussian Fields through Efficient Dense 3D Point Tracking" vorgestellt.
Das Kernproblem bei der Implementierung von 4D-Kontrolle in der Videogenerierung liegt im hohen Bedarf an Trainingsdaten. Das Training eines Video Diffusion Transformers (DiT) mit echten Multi-View-Videos ist extrem aufwendig und kostspielig. GS-DiT umgeht dieses Problem durch die Nutzung von sogenannten "Pseudo 4D Gaussian Fields". Inspiriert von der Monocular Dynamic Novel View Synthesis (MDVS), die eine 4D-Repräsentation optimiert und Videos basierend auf verschiedenen 4D-Elementen rendert, konstruiert GS-DiT ein Pseudo 4D Gaussian Field mittels dichter 3D-Punktverfolgung. Dieses Feld wird dann für alle Videoframes gerendert und dient als Grundlage für das Finetuning eines vortrainierten DiT.
Ein entscheidender Bestandteil von GS-DiT ist die effiziente Dense 3D Point Tracking (D3D-PT) Methode. Diese ermöglicht die schnelle und präzise Konstruktion des Pseudo 4D Gaussian Fields. Im Vergleich zu SpatialTracker, dem State-of-the-Art-Verfahren für Sparse 3D Point Tracking, bietet D3D-PT eine höhere Genauigkeit und eine um zwei Größenordnungen schnellere Inferenzgeschwindigkeit. Dies beschleunigt den Trainingsprozess von GS-DiT erheblich.
In der Inferenzphase kann GS-DiT Videos mit identischem dynamischen Inhalt, aber unterschiedlichen Kameraparametern generieren. Dies adressiert eine signifikante Einschränkung aktueller Videogenerierungsmodelle. Darüber hinaus zeigt GS-DiT starke Generalisierungsfähigkeiten und erweitert die 4D-Kontrollierbarkeit von Gaussian Splatting über die reine Kamerasteuerung hinaus. Durch Manipulation des Gaussian Fields und der Kameraintrinsics lassen sich fortgeschrittene filmische Effekte erzielen, was GS-DiT zu einem mächtigen Werkzeug für die kreative Videoproduktion macht.
Die 4D-Kontrolle in der Videogenerierung eröffnet neue Möglichkeiten für die Erstellung von immersivem und interaktivem Content. GS-DiT stellt einen wichtigen Schritt in diese Richtung dar und könnte die Art und Weise, wie Videos produziert und konsumiert werden, grundlegend verändern. Die Kombination von Gaussian Splatting mit Video Diffusion Transformers bietet ein hohes Potenzial für zukünftige Entwicklungen in diesem Bereich. Besonders für Unternehmen wie Mindverse, die sich auf KI-gestützte Content-Erstellung spezialisieren, eröffnen sich durch diese Technologie neue Wege, maßgeschneiderte Lösungen für Kunden zu entwickeln, von Chatbots und Voicebots bis hin zu KI-Suchmaschinen und Wissenssystemen.
Bibliographie:
Bian, W., Huang, Z., Shi, X., Li, Y., Wang, F.-Y., & Li, H. (2025). GS-DiT: Advancing Video Generation with Pseudo 4D Gaussian Fields through Efficient Dense 3D Point Tracking. arXiv preprint arXiv:2501.02690.
Patas, J. (2025, Januar 7). GS-DiT: Advancing Video Generation with Pseudo 4D Gaussian Fields through Efficient Dense 3D Point Tracking. X. https://x.com/janusch_patas/status/1876496980534599739
GS-DiT: Advancing Video Generation with Pseudo 4D Gaussian Fields through Efficient Dense 3D Point Tracking. PaperReading. https://paperreading.club/page?id=276899
Zhao, Z. (2025, Januar 7). GS-DiT: Advancing Video Generation with Pseudo 4D Gaussian Fields through Efficient Dense 3D Point Tracking. Twitter. https://twitter.com/zhenjun_zhao/status/1876481819241324815
Hugging Face Papers. https://huggingface.co/papers
ECCV 2024 Papers. https://github.com/52CV/ECCV-2024-Papers
Awesome 3D Gaussian Splatting Papers. https://github.com/MrNeRF/awesome-3D-gaussian-splatting/blob/main/awesome_3dgs_papers.yaml
CVPR 2024 Accepted Papers. https://cvpr.thecvf.com/Conferences/2024/AcceptedPapers
Lichtenecker, A., Neverova, N., Vedaldi, A., & Brox, T. (2024). 4Real-Video: Learning Generalizable Photo-Realistic 4D Video Diffusion. arXiv preprint arXiv:2406.15296.
NeurIPS 2024 Papers. https://nips.cc/virtual/2024/papers.html