Evaluation von KI-generierten Videos: Herausforderungen bei der Darstellung menschlicher Bewegungen

Kategorien:

No items found.

Freigegeben:

April 3, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

VLMs (Vision-Language Models) zeigen Defizite bei der realistischen Generierung menschlicher Bewegungen.
Ein neues, umfassendes Datenset namens VidPrefMotion (v2) wurde erstellt, um die Qualität von KI-generierten Videos mit menschlichen Bewegungen zu bewerten.
Dieses Datenset enthält 57.866 menschliche Präferenzlabels, die vier führende Videogenerierungsmodelle in Bezug auf menschliche Bewegungen über drei Qualitätsdimensionen vergleichen.
Die bewerteten Modelle sind Google Veo 3 Fast, Grok Imagine, Kling 1.5 Pro und Luma Ray 2.
Google Veo 3 Fast erzielte die besten Ergebnisse in der Gesamtbewertung und in allen drei Qualitätsdimensionen (Kohärenz, Ästhetik, Prompt-Adhärenz).
Die menschliche Bewertung bleibt entscheidend, da automatisierte Systeme subtile Fehler in Bewegungsabläufen oft übersehen.
Die Studie unterstreicht die Notwendigkeit, menschliche Präferenzdaten in die Entwicklung und Evaluation von KI-Modellen für Videogenerierung zu integrieren.

Menschliche Bewegung in KI-generierten Videos: Eine detaillierte Analyse der aktuellen Herausforderungen und Fortschritte

Die Fähigkeit von Künstlicher Intelligenz, realistische Videos zu generieren, hat in den letzten Jahren beeindruckende Fortschritte gemacht. Insbesondere die Vision-Language Models (VLMs) zeigen ein immenses Potenzial, visuelle Umgebungen zu interpretieren und zu beschreiben. Dennoch offenbart eine aktuelle Analyse, dass die realistische Darstellung menschlicher Bewegungen in diesen KI-generierten Videos weiterhin eine signifikante Herausforderung darstellt. Um diese Lücke zu schließen und die Qualität von Video-Generierungsmodellen im Hinblick auf menschliche Bewegungen präziser zu bewerten, wurde ein umfangreiches Datenset menschlicher Präferenzen erstellt.

Die Herausforderung der menschlichen Bewegung für VLMs

VLMs sind in der Lage, visuelle Informationen zu verarbeiten und mit Sprachmodellen zu verknüpfen. Dies ermöglicht es ihnen, aus Textbeschreibungen Bilder und kurze Videosequenzen zu erzeugen. Jedoch, wenn es um die Komplexität menschlicher Bewegungen geht – sei es Gehen, Tanzen, Sprechen oder sportliche Aktivitäten – stoßen aktuelle Modelle oft an ihre Grenzen. Subtile Aspekte wie Gewichtsverlagerung, Fußkontakt, natürliche Rhythmen, Lippensynchronisation, feine Mimik oder die Koordination mehrerer Personen bleiben schwierig akkurat zu reproduzieren. Forscher betonen, dass automatisierte Bewertungssysteme (wie GPT-4V oder Gemini) diese feinen Fehler oft übersehen, während menschliche Beobachter sie sofort erkennen. Dies unterstreicht die Notwendigkeit einer menschzentrierten Evaluation, um die tatsächliche Qualität der generierten Bewegungen zu beurteilen.

Das VidPrefMotion (v2) Datenset: Ein neuer Standard für die Evaluation

Um eine fundierte Bewertung der Fähigkeiten von KI-Videomodellen bei der Darstellung menschlicher Bewegungen zu ermöglichen, wurde das Datenset VidPrefMotion (v2) entwickelt. Dieses Datenset, das auf der Plattform Hugging Face verfügbar ist, stellt mit 57.866 paarweisen menschlichen Präferenzlabels das größte öffentlich zugängliche Datenset dar, das sich spezifisch auf menschliche Bewegungen in KI-generierten Videos konzentriert. Die Daten wurden von Tausenden von Annotatoren gesammelt, die vier führende Videogenerierungsmodelle miteinander verglichen haben: Google Veo 3 Fast, Grok Imagine von xAI, Kling 1.5 Pro von Kuaishou und Luma Ray 2 von Luma Labs.

Die Bewertung erfolgte über drei zentrale Qualitätsdimensionen:

Kohärenz: Bewertet die zeitliche Konsistenz, das Fehlen von Flackern, Verzerrungen, Deformationen oder physikalisch unplausiblen Bewegungen.
Ästhetik: Beurteilt die visuelle Qualität, Komposition, Beleuchtung, Farbe, Stil und den Produktionswert.
Prompt-Adhärenz: Misst die Genauigkeit, mit der das Video die in der Textaufforderung beschriebenen Inhalte darstellt.

Kategorien menschlicher Bewegung

Das Datenset umfasst 11 verschiedene Bewegungskategorien, von denen jede spezifische Herausforderungen für KI-Modelle darstellt:

Gehen / Laufen: Gewichtsverlagerung, Fußkontakt, natürlicher Rhythmus.
Tanzen: Komplexe koordinierte Bewegungen, Ganzkörperfluss.
Sprechen / Ausdrücke: Lippensynchronisation, Gesichts-Mikrobewegungen.
Sport / Action: Schnelle Bewegungen, Physik, athletische Posen.
Stationär: Subtile Bewegungen, Identitätserhaltung über die Zeit.
Mehrere Personen: Interaktion von zwei oder mehr Körpern, Verdeckung, Interaktionsphysik.
Kochen: Feinmotorik, Objektmanipulation.
Handwerk: Präzise Handbewegungen, Werkzeuggebrauch.
Musik: Fingerkoordination beim Instrumentenspiel, rhythmische Bewegungen.
Wasser: Fluiddynamik, Körper-Wasser-Interaktion (Schwimmen, Tauchen, Surfen).
Tiere: Interaktionen mit Haustieren, Reiten, Wildtiere (Bewegungen zwischen Arten, Tiergangarten).

Ergebnisse der Evaluierung

Die Analyse der menschlichen Präferenzlabels ergab klare Unterschiede in der Leistung der getesteten Modelle:

Google Veo 3 Fast erreichte die höchste Gesamtgewinnrate von 64,5 % und zeigte in allen drei Dimensionen (Kohärenz: 64,8 %, Ästhetik: 62,4 %, Prompt-Adhärenz: 66,3 %) die beste Leistung.
Grok Imagine folgte mit einer Gesamtgewinnrate von 47,9 %. Die Ästhetik (49,6 %) und Prompt-Adhärenz (56,1 %) waren hier vergleichsweise stark, während die Kohärenz (37,9 %) geringer war.
Kling 1.5 Pro erzielte eine Gesamtgewinnrate von 39,2 %, mit Kohärenz bei 43,9 %, Ästhetik bei 40,9 % und Prompt-Adhärenz bei 32,9 %.
Luma Ray 2 lag mit einer Gesamtgewinnrate von 38,6 % knapp dahinter, mit Werten von 45,5 % für Kohärenz, 35,9 % für Ästhetik und 34,2 % für Prompt-Adhärenz.

Diese Ergebnisse deuten darauf hin, dass Google Veo 3 Fast derzeit die konsistenteste und qualitativ hochwertigste Leistung bei der Generierung menschlicher Bewegungen bietet, insbesondere in Bezug auf Kohärenz und die Einhaltung der Prompt-Anweisungen. Es ist jedoch zu beachten, dass keines der Modelle eine perfekte Punktzahl erreicht hat, was die fortbestehenden Herausforderungen in diesem Bereich unterstreicht.

Methodik und Datenqualität

Die Erstellung des Datensets umfasste 417 Prompts, die eine strukturierte Vielfalt über die 11 Bewegungskategorien hinweg aufwiesen. Alle Videos waren 4–5 Sekunden lang, hatten eine Auflösung von 540p–720p und ein Seitenverhältnis von 16:9. Die Annotation erfolgte mobilfreundlich über das SDK der Konsumenten-App von Datapoint AI, wobei die Annotatoren gezwungen waren, zwischen zwei Optionen zu wählen und dimensionsspezifische Fragen zu beantworten. Um Verzerrungen zu minimieren, wurden die Videos zufällig zwischen linker und rechter Position ausgetauscht. Eine mediane Antwortzeit von 14,9 Sekunden bestätigte, dass die Annotatoren beide Videos vor ihrer Entscheidung vollständig angesehen haben.

Weitere Entwicklungen und Ausblick

Die Forschung im Bereich der generativen KI für Bewegungen schreitet stetig voran. Ein Beispiel hierfür ist das ViMoGen-Framework, das darauf abzielt, die Generalisierungsfähigkeit von 3D-Mensch-Bewegungsgenerierung zu verbessern. Dieses Framework kombiniert hochwertige Motion-Capture-Daten (MoCap) mit semantischem Wissen aus großen Videogenerierungsmodellen. Durch einen dualen Ansatz, der einen Text-zu-Bewegung (T2M)-Zweig mit einem Bewegungs-zu-Bewegung (M2M)-Zweig vereint, soll eine verbesserte Bewegungsqualität und Generalisierung erreicht werden. Der M2M-Zweig nutzt Video-Generierungsmodelle, um die semantische Abdeckung zu erweitern, während der T2M-Zweig auf präzise MoCap-Daten für die Bewegungsdynamik setzt. Ein adaptiver Auswahlmechanismus entscheidet, welcher Zweig für eine gegebene Prompt am besten geeignet ist, um eine Balance zwischen Robustheit und Generalisierungsfähigkeit zu finden. Eine leichtere Variante, ViMoGen-light, destilliert dieses Wissen, um den Rechenaufwand zu reduzieren.

Trotz dieser Fortschritte gibt es weiterhin Herausforderungen. Die Generierung von Mehrpersonen-Interaktionen und komplexen, hochdynamischen Bewegungen bleibt schwierig. Zudem besteht ein Kompromiss zwischen überragender Generalisierung und der Erzielung der höchsten Punktwerte bei spezifischen Qualitätsmetriken. Artefakte in visuellen MoCap-Daten und der begrenzte Dynamikbereich generierter Videos tragen zu diesen Einschränkungen bei.

Die kontinuierliche Integration menschlicher Präferenzdaten in die Trainings- und Evaluierungsprozesse ist entscheidend, um KI-Modelle zu entwickeln, die menschliche Bewegungen nicht nur technisch korrekt, sondern auch visuell ansprechend und physikalisch plausibel darstellen können. Die Arbeit mit Datensätzen wie VidPrefMotion (v2) bietet eine wichtige Grundlage, um diese Ziele zu erreichen und die nächste Generation von KI-Videogenerierungsmodellen zu formen.

Bedeutung für B2B-Anwendungen

Für Unternehmen, die im B2B-Bereich tätig sind und auf KI-gestützte Videoerstellung setzen, sind diese Entwicklungen von großer Relevanz. Die Fähigkeit, realistische und überzeugende menschliche Bewegungen in Videos zu generieren, ist entscheidend für Anwendungen wie:

Marketing und Werbung: Hochwertige Produktvideos mit realistischen menschlichen Interaktionen.
Schulung und Simulation: Erstellung von Trainingsmaterialien mit lebensechten Darstellungen menschlicher Aktionen.
Virtuelle Assistenten und Avatare: Entwicklung von digitalen Repräsentationen mit natürlichen Bewegungsabläufen.
Content-Produktion: Effiziente Erstellung von B-Roll-Material oder Szenen für Film und Fernsehen.

Die Kenntnis der Stärken und Schwächen aktueller Modelle ermöglicht es Unternehmen, fundierte Entscheidungen bei der Auswahl und Implementierung von KI-Videogenerierungstools zu treffen. Die laufende Forschung und die Verfügbarkeit von detaillierten Evaluationsdaten bieten eine wertvolle Grundlage, um die Erwartungen an KI-generierte Inhalte realistisch einzuschätzen und die Entwicklung zukünftiger Anwendungen aktiv mitzugestalten.

Bibliographie

- "datapointai/VidPrefMotion · Datasets at Hugging Face" - "datapointai/text-2-video-human-preferences-motion-v2-medium · Datasets at Hugging Face" - "Computer Science > Computer Vision and Pattern Recognition" (arXiv:2512.09907) - "ViMoNet: A Multimodal Vision-Language Framework for Human Behavior Understanding from Motion and Video" (arXiv:2508.09818) - "What Are You Doing? A Closer Look at Controllable Human Video Generation" (arXiv:2503.04666) - "The Quest for Generalizable Motion Generation: Data, Model, and Evaluation" (arXiv:2510.26794) - "Luma vs Kling vs Hailuo: 50 Videos Tested, One Clear Winner" (PixelMotion) - "I Generated 500 Videos Across 6 AI Models: The Definitive Quality, Speed, and Cost Comparison" (Cliprise via Medium) - "Best AI Video Generators from Text [2026 Tested] | QWE AI Academy" - "Llama 4's Controversial Weekend Release - AINews"