KI für Ihr Unternehmen – Jetzt Demo buchen

Neuer Benchmark MT-Video-Bench zur Evaluierung multimodaler Sprachmodelle im Videoverständnis

Kategorien:
No items found.
Freigegeben:
October 31, 2025

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Die Forschung konzentriert sich auf die Entwicklung und Bewertung von Multimodalen Großen Sprachmodellen (MLLMs) im Bereich des Video-Verständnisses.
    • Ein neuer Benchmark namens MT-Video-Bench (oder VF-EVAL) wurde entwickelt, um die Fähigkeiten von MLLMs im Umgang mit KI-generierten Videos (AIGC-Videos) zu testen.
    • MT-Video-Bench umfasst vier Kernaufgaben: Kohärenzvalidierung, Fehlerbewusstsein, Fehlertyperkennung und Schlussfolgerungsbewertung, ergänzt durch sechs spezifische Reasoning-Subaufgaben.
    • Aktuelle MLLMs zeigen deutliche Schwächen bei der Analyse von AIGC-Videos, insbesondere in Bereichen wie räumlichem und zeitlichem Denken, Objekt- und Aktionserkennung sowie der Generierung verbesserter Prompts.
    • Proprietäre Modelle wie GPT-4.1 übertreffen Open-Source-Modelle, erreichen aber immer noch nicht die menschliche Leistungsfähigkeit.
    • Die Studie betont die Notwendigkeit, MLLMs besser an menschliche Präferenzen anzupassen und zusätzliche Methoden wie Computer Vision und In-Context Learning zu integrieren, um die Qualität der Feedback-Generierung zu verbessern.

    Multimodale LLMs im Fokus: Der neue Benchmark MT-Video-Bench für KI-generierte Videos

    Die rapide Entwicklung von Multimodalen Großen Sprachmodellen (MLLMs) hat das Potenzial, die Art und Weise, wie wir mit digitalen Inhalten interagieren, grundlegend zu verändern. Diese Modelle, die in der Lage sind, Informationen aus verschiedenen Modalitäten wie Text, Bildern und Videos zu verarbeiten und zu integrieren, sind zu einem zentralen Forschungsgebiet avanciert. Während ihre Fähigkeiten im statischen Bildverständnis bereits umfassend untersucht wurden, bleibt die Bewertung ihrer Leistung bei sequenziellen visuellen Daten, insbesondere bei KI-generierten Videos (AIGC-Videos), eine Herausforderung. Diese Lücke adressiert ein kürzlich vorgestellter Benchmark namens MT-Video-Bench, auch bekannt als VF-EVAL.

    Die Notwendigkeit eines spezialisierten Benchmarks

    Bestehende Benchmarks für das Videoverständnis konzentrieren sich hauptsächlich auf natürliche Videos. Die einzigartigen Eigenschaften von AIGC-Videos, wie synthetische Texturen, dynamische Lichteffekte und algorithmisch generierte Charaktere, die sich erheblich von traditionellen Videoinhalten unterscheiden, stellen MLLMs vor neue Interpretationsschwierigkeiten. Diese Besonderheiten beeinträchtigen die Zuverlässigkeit und Effektivität des von MLLMs generierten Feedbacks. Zudem neigen MLLMs bei der Qualitätsbewertung von Videos oft dazu, implizite Bewertungen abzugeben, die die Komplexität der Videoqualität nicht vollständig erfassen. Aus diesen Gründen wurde MT-Video-Bench entwickelt, um die Fähigkeit von MLLMs zur Generierung von präzisem und detailliertem Feedback für AIGC-Videos systematisch zu bewerten.

    Struktur und Aufgaben des MT-Video-Bench

    MT-Video-Bench ist in vier Hauptaufgaben unterteilt, die jeweils spezifische Aspekte der MLLM-Fähigkeiten im Umgang mit AIGC-Videos beleuchten:

    • Kohärenzvalidierung (Coherence Validation, CV): Diese Aufgabe bewertet, wie gut MLLMs die Übereinstimmung zwischen einem generierten Video und seinem ursprünglichen Generierungsprompt beurteilen können. Darüber hinaus wird die Fähigkeit des Modells geprüft, einen verbesserten Prompt zu formulieren, der den menschlichen Erwartungen für eine präzisere Videogenerierung entspricht. Die Bewertung erfolgt primär durch Open-Ended-Fragen, deren Antworten von einem spezialisierten LLM (z.B. GPT-4.1-mini) bewertet werden.
    • Fehlerbewusstsein (Error Awareness, EA): Hierbei geht es darum, ob MLLMs Fehler in einem Videoset erkennen können, das sowohl natürliche als auch AIGC-Videos enthält. Die Fragen sind im Ja/Nein-Format gehalten. Eine interessante Beobachtung ist, dass MLLMs dazu neigen, Videos als "normal" wahrzunehmen, selbst wenn Fehler vorhanden sind, was zu einer Leistung unterhalb des Zufallsprinzips führen kann.
    • Fehlertyperkennung (Error Type Detection, ED): Diese Aufgabe zielt darauf ab, spezifische Fehler in AIGC-Videos zu identifizieren. Sie wird hauptsächlich durch Multiple-Choice-Fragen bewertet, die eine granulare Analyse der MLLM-Fähigkeiten über verschiedene Fehlerdimensionen hinweg ermöglichen, wie Videoqualität, Verstöße gegen den gesunden Menschenverstand und physikalische Gesetze sowie moralische Aspekte.
    • Schlussfolgerungsbewertung (Reasoning Evaluation, RE): Diese vierte Aufgabe misst die allgemeine Schlussfolgerungsfähigkeit von MLLMs bei komplexen Fragen im Kontext von AIGC-Videos. Sie umfasst sechs Subaufgaben:
      • Räumliches Denken
      • Zeitliches Denken
      • Aktions- und Objekt-Denken
      • Zählprobleme
      • Informationssynopse
      Auch hier werden Open-Ended-Fragen verwendet, die von einem LLM bewertet werden.

    Datensatzkonstruktion und -analyse

    Der VF-EVAL-Datensatz wurde sorgfältig konzipiert, um eine hohe Qualität und Vielfalt zu gewährleisten. Es wurden über 1.000 Prompts mittels LLMs (z.B. GPT-4o) generiert und von menschlichen Experten validiert, um eine breite Abdeckung von Szenarien zu erreichen. Videos wurden sowohl von proprietären (Pika, Kling, Pixeldance, Gen-3) als auch von Open-Source-Modellen (T2V-turbo-v2) gesammelt und durch Videos aus bestehenden Datensätzen (Lavie, OpenSora) ergänzt. Die Fragen sind wissensintensiv gestaltet und erfordern von den MLLMs, Fachwissen und analytische Fähigkeiten einzusetzen. Ablenkende Optionen in Multiple-Choice-Fragen wurden ebenfalls durch MLLMs generiert und von Menschen überprüft, um die Schwierigkeit zu erhöhen.

    Der Datensatz umfasst insgesamt 9.740 Frage-Antwort-Paare, darunter 1.826 Ja/Nein-, 5.932 Multiple-Choice- und 1.982 Open-Ended-Fragen. Die Videos haben eine durchschnittliche Länge von 8,98 Sekunden (maximal 12 Sekunden), die Fragen im Durchschnitt 35,25 Wörter (maximal 119 Wörter). Eine umfassende menschliche Validierung gewährleistete die Qualität der Annotationen.

    Experimentelle Ergebnisse und Erkenntnisse

    Die Evaluation von 13 führenden MLLMs, darunter sowohl Open-Source-Modelle (InternVL3, LLaVA-NeXT, Llama-3.2-Vision, VideoLLaMA3, Phi-3.5-Vision, Qwen2.5-VL, Mistral-Small-3.1) als auch proprietäre Modelle (GPT-4.1, GPT-4.1-mini, Gemini-Flash-2.0), lieferte wichtige Erkenntnisse:

    • Herausforderungen bei AIGC-Videos: MLLMs haben erhebliche Schwierigkeiten mit AIGC-Videoaufgaben. Die Leistung fällt ohne visuelle Daten drastisch ab, insbesondere bei der Kohärenzvalidierung und Schlussfolgerungsbewertung.
    • Lücke zur menschlichen Leistung: Selbst das leistungsstärkste proprietäre Modell, GPT-4.1, erreicht bei weitem nicht die menschliche Leistungsfähigkeit in den meisten Aufgaben. Dies unterstreicht die Komplexität der AIGC-Videoanalyse und die Notwendigkeit weiterer Forschung.
    • Skalierungsgesetze und Open-Source-Potenzial: Die Ergebnisse deuten darauf hin, dass die Leistungsfähigkeit mit der Größe des Modells skaliert. Obwohl proprietäre Modelle derzeit Open-Source-Modelle übertreffen, besteht ein erhebliches Potenzial für letztere, durch Feinabstimmung aufzuholen.
    • Aufgabenspezifische Leistungsschwankungen: Bei der Fehlerbewusstsein zeigen MLLMs bessere Ergebnisse bei der Bewertung der "Qualität" als bei "gesundem Menschenverstand und Physik", was auf einen Mangel an spezifischem Wissen zur Videobewertung hindeutet. Bei der Fehlertyperkennung haben MLLMs unerwartet schlechte Leistungen erbracht, insbesondere bei der Erkennung moralischer Verstöße.
    • Fehlerquellen: Häufige Fehler umfassen ein Missverständnis der Videogenerierung (einfache Prompt-Erweiterung statt echter Verbesserung), übermäßige Abhängigkeit von textuellen Hinweisen (statt visueller Details), Vernachlässigung kritischer Details (z.B. Unschärfe, Windrichtung, Kamerawackeln) und eine Überbetonung des gesunden Menschenverstandes, der bei AIGC-Videos oft nicht zutrifft.

    REPROMPT-Analyse: Verbesserung durch menschliches Feedback

    Um das Potenzial von MLLM-Feedback zur Verbesserung der Videogenerierung zu evaluieren, wurde das REPROMPT-Experiment durchgeführt. Dabei wurden von MLLMs generierte Prompts von menschlichen Annotatoren basierend auf dem Videoinhalt überarbeitet und anschließend zur Regenerierung von Videos verwendet. Menschliche Juroren bewerteten die Qualität der neu generierten Videos im paarweisen Vergleich. Die Ergebnisse zeigten, dass Videos, die aus den von Menschen überarbeiteten Prompts generiert wurden, in Aspekten wie Subjektkonsistenz und ästhetischem Reiz durchweg besser abschnitten. Dies deutet darauf hin, dass eine engere Abstimmung von MLLMs mit menschlichen Präferenzen das Potenzial hat, die Qualität von generierten Videos erheblich zu verbessern.

    Fazit und Ausblick

    Die Studie beleuchtet die erheblichen Herausforderungen, denen sich heutige MLLMs bei der Interpretation und Bewertung von AIGC-Videos gegenübersehen. Temporale Inkonsistenzen, unrealistisches Objektverhalten und semantische Mehrdeutigkeiten in KI-generierten Inhalten erschweren die präzise Feedback-Generierung. Dennoch zeigt das REPROMPT-Experiment, dass MLLMs, wenn sie besser auf menschliche Präferenzen abgestimmt werden, ein wertvolles Werkzeug zur Verbesserung der Videogenerierung sein können. Die Integration von Computer-Vision-Techniken und In-Context Learning könnte die Präzision des Feedbacks weiter steigern.

    Zukünftige Forschungsarbeiten könnten sich auf die Einbeziehung von Videos konzentrieren, die aus Bildern generiert wurden, um weitere Fehlertypen zu identifizieren. Eine detailliertere Re-Prompt-Pipeline, die spezifische Fehlerpositionen berücksichtigt, würde die Granularität des Feedbacks erhöhen. Darüber hinaus wäre die Integration von Cross-Modal-Videos, die auch Audioinformationen enthalten, von Vorteil, um komplexere Szenarien multimodaler Interaktionen zu erfassen.

    Bibliography

    - Song, T., Hu, T., Gan, G., & Zhao, Y. (2025). VF-EVAL: Evaluating Multimodal LLMs for Generating Feedback on AIGC Videos. Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 21126–21146. - Li, K., Wang, Y., He, Y., Li, Y., Wang, Y., Liu, Y., Wang, Z., Xu, J., Chen, G., Luo, P., Wang, L., & Qiao, Y. (2024). MVBench: A Comprehensive Multi-modal Video Understanding Benchmark. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 22195–22206. - Fu, C., Dai, Y., Luo, Y., Li, L., Ren, S., Zhang, R., Wang, Z., Zhou, C., Shen, Y., Zhang, M., Chen, P., Li, Y., Lin, S., Zhao, S., Li, K., Xu, T., Zheng, X., Chen, E., Ji, R., & Sun, X. (2024). Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis. arXiv preprint arXiv:2405.21075. - Fang, X., Mao, K., Duan, H., Zhao, X., Li, Y., Lin, D., & Chen, K. (2024). MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding. arXiv preprint arXiv:2406.14515. - Wu, H., Li, D., Chen, B., & Li, J. (2024). LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding. arXiv preprint arXiv:2407.15754. - BradyFU. (2023). Awesome-Multimodal-Large-Language-Models. GitHub. https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen