Die Generierung von Videos mittels Künstlicher Intelligenz (KI) hat in den letzten Jahren erhebliche Fortschritte gemacht. Ein zentraler Aspekt ist dabei die präzise Steuerung der Bewegung innerhalb des generierten Videos. Ein neuartiger Ansatz, der unter dem Namen ATI (Any Trajectory Instruction) vorgestellt wurde, verspricht hier eine vereinheitlichte und flexible Lösung. ATI ermöglicht die Steuerung von Kamerabewegungen, Objektverschiebungen und detaillierten lokalen Bewegungen durch die Eingabe von Trajektorien.
Bisherige Methoden zur Bewegungssteuerung in der Videogenerierung griffen oft auf separate Module oder aufgabenspezifische Designs zurück. ATI hingegen bietet einen einheitlichen Rahmen, der verschiedene Bewegungstypen integriert. Kernstück des Ansatzes ist die Projektion benutzerdefinierter Trajektorien in den latenten Raum vortrainierter Bild-zu-Video-Generierungsmodelle. Dies geschieht über einen schlanken "Motion Injector".
Der Anwender definiert Schlüsselpunkte und deren Bewegungspfade, um so lokalisierte Verformungen, die Bewegung ganzer Objekte, die Dynamik virtueller Kameras oder Kombinationen dieser Elemente zu steuern. Die injizierten Trajektoriensignale leiten den Generierungsprozess und führen zu zeitlich konsistenten und semantisch ausgerichteten Bewegungsabläufen.
Die Flexibilität von ATI zeigt sich in seinen vielfältigen Anwendungsmöglichkeiten. Von stilisierten Bewegungseffekten (z.B. Motion Brushes) über dynamische Blickwinkeländerungen bis hin zur präzisen Manipulation lokaler Bewegungen deckt ATI ein breites Spektrum ab. Experimente belegen, dass die Methode im Vergleich zu früheren Ansätzen und kommerziellen Lösungen eine deutlich verbesserte Steuerbarkeit und visuelle Qualität bietet.
Ein weiterer Vorteil von ATI liegt in seiner breiten Kompatibilität mit verschiedenen State-of-the-Art-Videogenerierungsmodellen. Der Motion Injector lässt sich in bestehende Architekturen integrieren, ohne diese grundlegend verändern zu müssen. Dies vereinfacht die Anwendung und beschleunigt die Integration in bestehende Workflows.
ATI stellt einen vielversprechenden Schritt in Richtung einer präziseren und benutzerfreundlicheren Steuerung von Bewegungen in generierten Videos dar. Die vereinheitlichte Architektur und die Kompatibilität mit bestehenden Modellen eröffnen neue Möglichkeiten für kreative Anwendungen und Forschung im Bereich der KI-basierten Videogenerierung. Weitere Forschung könnte sich auf die Erweiterung der Funktionalität und die Optimierung der Performance konzentrieren, um die Grenzen des Machbaren in der Videogenerierung weiter zu verschieben.
Bibliographie: http://arxiv.org/abs/2505.22944 https://arxiv.org/html/2505.22944v1 https://github.com/bytedance/ATI https://anytraj.github.io/ https://huggingface.co/papers https://paperswithcode.com/paper/magicmotion-controllable-video-generation https://huggingface.co/papers?q=controllable%20video%20generation https://www.researchgate.net/publication/386335304_Trajectory_Attention_for_Fine-grained_Video_Motion_Control https://openreview.net/forum?id=uQjySppU9x https://jmlr.org/tmlr/papers/