Die rasante Entwicklung von Vision Language Models (VLMs) hat in den letzten Jahren zu beachtlichen Fortschritten im Bereich des Videoverständnisses geführt. Ein essenzieller Aspekt – das Verständnis fein abgestimmter Bewegungen – wird jedoch in aktuellen Benchmarks kaum berücksichtigt. Dieser Artikel beleuchtet die Bedeutung dieses Verständnisses und stellt MotionBench vor, einen neuen Benchmark zur Bewertung der Fähigkeit von VLMs, fein abgestimmte Bewegungen in Videos zu erfassen.
Fein abgestimmtes Bewegungsverständnis: Ein fehlendes Puzzleteil
VLMs haben beeindruckende Fähigkeiten im Verstehen von Videos bewiesen, doch die präzise Erfassung von Bewegungen bleibt eine Herausforderung. Bestehende Benchmarks konzentrieren sich meist auf allgemeine Videoinhalte oder höhere Verständnisebenen wie Ereignisse und Handlungsstränge. Das Verständnis auf Bewegungsebene, also die Wahrnehmung kleinster Bewegungsnuancen, bildet jedoch die Grundlage für viele Anwendungen, von der Anomalieerkennung bis hin zur detaillierten Video-Beschreibung. Eine Analyse gängiger Benchmarks mittels GPT-4 zeigt, dass dieser grundlegende Aspekt oft vernachlässigt wird.
MotionBench: Ein neuer Maßstab für Bewegungsverständnis
Um diese Lücke zu schließen, wurde MotionBench entwickelt – ein umfassender Benchmark, der speziell das Verständnis fein abgestimmter Bewegungen in Videos evaluiert. Mit über 8.000 Fragen, die sechs Hauptkategorien von Bewegungen abdecken, und Videos aus vielfältigen Quellen – von Web-Videos über Filmmaterial bis hin zu synthetisch generierten Videos – bietet MotionBench eine realitätsnahe und breit gefächerte Bewertungsgrundlage. Die Ergebnisse der Evaluierung aktueller VLMs mit MotionBench sind ernüchternd: Die meisten Modelle erreichen eine Genauigkeit von unter 60%, was deutlich unterhalb der Schwelle für praktische Anwendungen liegt.
Herausforderungen und Lösungsansätze
Zwei zentrale Herausforderungen erschweren das fein abgestimmte Bewegungsverständnis:
Hohe Bildrate vs. Rechenkosten:
Die Erfassung fein abgestimmter Bewegungen erfordert eine hohe Bildrate, was jedoch zu einem erheblichen Anstieg der Rechenkosten und des Speicherbedarfs führt. Viele VLMs können nur eine begrenzte Anzahl von Bildern verarbeiten und greifen daher auf eine geringe Abtastrate zurück, die für die Analyse subtiler Bewegungen unzureichend ist. Um diesem Problem zu begegnen, wurden verschiedene Architekturen zur Videokomprimierung untersucht. Dabei zeigte sich, dass eine oberflächliche Fusion der Videofeatures ein häufiger Schwachpunkt ist. Als Lösung wurde die "Through-Encoder (TE) Fusion" entwickelt, eine Methode, die eine tiefe Fusion über den gesamten visuellen Encoder ermöglicht und so die Videodarstellung verbessert, ohne die Decoder-Sequenzlänge zu erhöhen.
Eingeschränktes Verständnis fein abgestimmter Bewegungen:
Selbst mit höheren Bildraten bleibt das Verständnis fein abgestimmter Bewegungen begrenzt. Um dieses Problem anzugehen, wurde ein Datensatz von 5.000 Videos mit detaillierten, manuell erstellten Beschreibungen der Bewegungen veröffentlicht. Diese detaillierten Annotationen bieten wertvolles Trainingsmaterial für die Entwicklung von VLMs mit verbessertem Bewegungsverständnis.
TE Fusion: Ein vielversprechender Ansatz
Die TE Fusion hat sich als effektive Methode zur Verbesserung des Bewegungsverständnisses erwiesen. Tests auf verschiedenen Benchmarks, darunter MotionBench, MVBench, LVBench und VideoMME, zeigen, dass die TE Fusion, insbesondere bei hohen Komprimierungsraten, state-of-the-art Ergebnisse erzielt.
Fazit und Ausblick
MotionBench deckt eine kritische Lücke in der Bewertung von VLMs auf und unterstreicht die Bedeutung des fein abgestimmten Bewegungsverständnisses. Die TE Fusion bietet einen vielversprechenden Ansatz zur Bewältigung der damit verbundenen Herausforderungen. Der veröffentlichte Datensatz mit detaillierten Bewegungsbeschreibungen bietet zudem wertvolle Ressourcen für die weitere Forschung und Entwicklung. MotionBench soll die Entwicklung leistungsfähigerer Video-VLMs vorantreiben und den Fokus auf die essentielle Fähigkeit des fein abgestimmten Bewegungsverständnisses lenken.
Bibliographie:
Hong, W. et al. (2025). MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models. arXiv preprint arXiv:2501.02955.
Hong, W. et al. (2025). MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models. arXiv preprint arXiv:2501.02955v1.
MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models. Paperreading.club.
Peng, Y. et al. (2024). Synthesize, Diagnose, and Optimize: Towards Fine-Grained Vision-Language Understanding. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).
Zhu, F. et al. (2024). MMDocBench: Benchmarking Large Vision-Language Models for Fine-Grained Visual Document Understanding. ICLR 2025 Conference Withdrawn Submission.
Wu, H. et al. (2024). Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding. arXiv preprint arXiv:2403.12086.
Tang, J. et al. (2024). TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models. arXiv preprint arXiv:2408.05577.
Zellers, R. et al. (2024). HELM: Holistic Evaluation of Language Models. In Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing (EMNLP).
Huang, Z. et al. (2024). Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models. In European Conference on Computer Vision (ECCV).