Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die rapide Entwicklung von Multimodalen Großen Sprachmodellen (MLLMs) hat das Potenzial, die Art und Weise, wie wir mit digitalen Inhalten interagieren, grundlegend zu verändern. Diese Modelle, die in der Lage sind, Informationen aus verschiedenen Modalitäten wie Text, Bildern und Videos zu verarbeiten und zu integrieren, sind zu einem zentralen Forschungsgebiet avanciert. Während ihre Fähigkeiten im statischen Bildverständnis bereits umfassend untersucht wurden, bleibt die Bewertung ihrer Leistung bei sequenziellen visuellen Daten, insbesondere bei KI-generierten Videos (AIGC-Videos), eine Herausforderung. Diese Lücke adressiert ein kürzlich vorgestellter Benchmark namens MT-Video-Bench, auch bekannt als VF-EVAL.
Bestehende Benchmarks für das Videoverständnis konzentrieren sich hauptsächlich auf natürliche Videos. Die einzigartigen Eigenschaften von AIGC-Videos, wie synthetische Texturen, dynamische Lichteffekte und algorithmisch generierte Charaktere, die sich erheblich von traditionellen Videoinhalten unterscheiden, stellen MLLMs vor neue Interpretationsschwierigkeiten. Diese Besonderheiten beeinträchtigen die Zuverlässigkeit und Effektivität des von MLLMs generierten Feedbacks. Zudem neigen MLLMs bei der Qualitätsbewertung von Videos oft dazu, implizite Bewertungen abzugeben, die die Komplexität der Videoqualität nicht vollständig erfassen. Aus diesen Gründen wurde MT-Video-Bench entwickelt, um die Fähigkeit von MLLMs zur Generierung von präzisem und detailliertem Feedback für AIGC-Videos systematisch zu bewerten.
MT-Video-Bench ist in vier Hauptaufgaben unterteilt, die jeweils spezifische Aspekte der MLLM-Fähigkeiten im Umgang mit AIGC-Videos beleuchten:
Der VF-EVAL-Datensatz wurde sorgfältig konzipiert, um eine hohe Qualität und Vielfalt zu gewährleisten. Es wurden über 1.000 Prompts mittels LLMs (z.B. GPT-4o) generiert und von menschlichen Experten validiert, um eine breite Abdeckung von Szenarien zu erreichen. Videos wurden sowohl von proprietären (Pika, Kling, Pixeldance, Gen-3) als auch von Open-Source-Modellen (T2V-turbo-v2) gesammelt und durch Videos aus bestehenden Datensätzen (Lavie, OpenSora) ergänzt. Die Fragen sind wissensintensiv gestaltet und erfordern von den MLLMs, Fachwissen und analytische Fähigkeiten einzusetzen. Ablenkende Optionen in Multiple-Choice-Fragen wurden ebenfalls durch MLLMs generiert und von Menschen überprüft, um die Schwierigkeit zu erhöhen.
Der Datensatz umfasst insgesamt 9.740 Frage-Antwort-Paare, darunter 1.826 Ja/Nein-, 5.932 Multiple-Choice- und 1.982 Open-Ended-Fragen. Die Videos haben eine durchschnittliche Länge von 8,98 Sekunden (maximal 12 Sekunden), die Fragen im Durchschnitt 35,25 Wörter (maximal 119 Wörter). Eine umfassende menschliche Validierung gewährleistete die Qualität der Annotationen.
Die Evaluation von 13 führenden MLLMs, darunter sowohl Open-Source-Modelle (InternVL3, LLaVA-NeXT, Llama-3.2-Vision, VideoLLaMA3, Phi-3.5-Vision, Qwen2.5-VL, Mistral-Small-3.1) als auch proprietäre Modelle (GPT-4.1, GPT-4.1-mini, Gemini-Flash-2.0), lieferte wichtige Erkenntnisse:
Um das Potenzial von MLLM-Feedback zur Verbesserung der Videogenerierung zu evaluieren, wurde das REPROMPT-Experiment durchgeführt. Dabei wurden von MLLMs generierte Prompts von menschlichen Annotatoren basierend auf dem Videoinhalt überarbeitet und anschließend zur Regenerierung von Videos verwendet. Menschliche Juroren bewerteten die Qualität der neu generierten Videos im paarweisen Vergleich. Die Ergebnisse zeigten, dass Videos, die aus den von Menschen überarbeiteten Prompts generiert wurden, in Aspekten wie Subjektkonsistenz und ästhetischem Reiz durchweg besser abschnitten. Dies deutet darauf hin, dass eine engere Abstimmung von MLLMs mit menschlichen Präferenzen das Potenzial hat, die Qualität von generierten Videos erheblich zu verbessern.
Die Studie beleuchtet die erheblichen Herausforderungen, denen sich heutige MLLMs bei der Interpretation und Bewertung von AIGC-Videos gegenübersehen. Temporale Inkonsistenzen, unrealistisches Objektverhalten und semantische Mehrdeutigkeiten in KI-generierten Inhalten erschweren die präzise Feedback-Generierung. Dennoch zeigt das REPROMPT-Experiment, dass MLLMs, wenn sie besser auf menschliche Präferenzen abgestimmt werden, ein wertvolles Werkzeug zur Verbesserung der Videogenerierung sein können. Die Integration von Computer-Vision-Techniken und In-Context Learning könnte die Präzision des Feedbacks weiter steigern.
Zukünftige Forschungsarbeiten könnten sich auf die Einbeziehung von Videos konzentrieren, die aus Bildern generiert wurden, um weitere Fehlertypen zu identifizieren. Eine detailliertere Re-Prompt-Pipeline, die spezifische Fehlerpositionen berücksichtigt, würde die Granularität des Feedbacks erhöhen. Darüber hinaus wäre die Integration von Cross-Modal-Videos, die auch Audioinformationen enthalten, von Vorteil, um komplexere Szenarien multimodaler Interaktionen zu erfassen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen