Neue Ansätze zur Verbesserung des Videoverständnisses in multimodalen großen Sprachmodellen

Kategorien:

No items found.

Freigegeben:

January 5, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Multimodale Große Sprachmodelle (MLLMs) zeigen Schwächen im Videoverständnis, insbesondere bei der Verarbeitung kontrafaktischer Inhalte, die dem gesunden Menschenverstand widersprechen.
Ein neues Framework namens DualityForge wurde entwickelt, um hochwertige kontrafaktische Videodaten zu synthetisieren, indem reale Videos mittels diffusionsbasierter Videobearbeitung in kontrafaktische Szenarien umgewandelt werden.
Das generierte Dataset, DualityVidQA, umfasst 144.000 Trainingsbeispiele und dient zur Reduzierung von Halluzinationen in MLLMs.
Die Trainingsmethode DNA-Train (Duality-Normalized Advantage Training), ein zweistufiges SFT-RL-Regime, optimiert die Modelle, um visuell fundierte Antworten zu erzeugen, anstatt sich auf Sprach-Priors zu verlassen.
Experimente zeigen, dass dieser Ansatz die Halluzinationserkennung signifikant verbessert (24,0 % relative Verbesserung auf DualityVidQA-Test) und gleichzeitig die Leistung bei der allgemeinen Videoverständnis aufrecht erhält oder sogar steigert.

Die Fortschritte im Bereich der Multimodalen Großen Sprachmodelle (MLLMs) sind beeindruckend, insbesondere im Videoverständnis. Dennoch weisen diese Modelle eine kritische Schwachstelle auf: eine übermäßige Abhängigkeit von sprachlichen Vorkenntnissen, die zu "visuell unbegründeten Halluzinationen" führen kann. Dieses Phänomen tritt besonders häufig auf, wenn MLLMs Videos verarbeiten, die kontrafaktische Phänomene darstellen, also Inhalte, die dem gesunden Menschenverstand widersprechen.

Die Herausforderung der Halluzinationen in MLLMs

Halluzinationen in MLLMs manifestieren sich, wenn die Modelle linguistisch plausible, aber visuell inkonsistente Antworten generieren. Dies geschieht, weil sie sich oft auf gelernte Common-Sense-Priors verlassen, anstatt ihre Antworten im tatsächlichen visuellen Inhalt zu verankern. Die Schwierigkeit, dieses Problem zu beheben, liegt in der inhärenten Datenungleichheit zwischen Text und Video: Die Menge und Vielfalt der Textdaten übertrifft die der Videodaten bei weitem. Das Sammeln und Annotieren von kontrafaktischen Videodaten ist zudem mit erheblichem Aufwand verbunden.

DualityForge: Ein innovativer Ansatz zur Datensynthese

Um diese Herausforderung zu meistern, wurde das Framework DualityForge eingeführt. Dieses Framework nutzt kontrollierbare, diffusionsbasierte Videobearbeitung, um reale Videos in kontrafaktische Szenarien umzuwandeln. Ein Beispiel hierfür ist das Entfernen eines Objekts mitten im Clip, um ein plötzliches Verschwinden zu simulieren.

Strukturierte Kontextinformationen und QA-Generierung

Durch die Einbettung strukturierter Kontextinformationen (z.B. Ereignistyp, zeitliche Position) in den Videobearbeitungs- und QA-Generierungsprozess kann DualityForge automatisch hochwertige Fragen-Antworten-Paare zusammen mit Original- und bearbeiteten Videopaaren für das kontrastive Training produzieren. Dieser Ansatz ermöglicht die präzise Kontrolle über die generierten Ereignisse und liefert MLLMs explizite Hinweise zum Verständnis kontrafaktischer Phänomene.

DualityVidQA: Ein umfassendes Dataset

Auf Basis von DualityForge wurde DualityVidQA entwickelt, ein großskaliges Videodataset, das darauf abzielt, MLLM-Halluzinationen zu reduzieren. Es umfasst 104.000 Samples für Supervised Fine-Tuning (SFT) und 40.000 für Reinforcement Learning (RL), was insgesamt 144.000 Trainingssamples ergibt. Dieses Dataset beinhaltet 81.000 einzigartige Videos mit einer Gesamtdauer von etwa 100 Stunden. Eine Besonderheit sind die "Shared-Question"-Kontrast-QA-Paare, bei denen dieselbe Frage für das Originalvideo und das bearbeitete Video unterschiedliche korrekte Antworten erfordert. Dies zwingt das Modell, seine Schlussfolgerungen auf kritische visuelle Beweise zu stützen, anstatt sich auf Sprach-Priors zu verlassen.

DNA-Train: Eine zweistufige Trainingsmethode

Zur vollständigen Nutzung der kontrastiven Natur der gepaarten Daten wurde Duality-Normalized Advantage Training (DNA-Train) vorgeschlagen. Dies ist ein zweistufiges Trainingsregime (SFT gefolgt von RL), das darauf abzielt, Halluzinationen zu mindern und gleichzeitig die Leistung in realen Szenarien zu erhalten.

Supervised Fine-Tuning (SFT)

In der SFT-Phase wird ein hybrides Dataset aus realen und kontrafaktischen Videos verwendet. Ziel ist es, dem Modell die Fähigkeit zu vermitteln, Anomalien zu erkennen, ohne die Leistung bei realen Videos zu beeinträchtigen. Eine ausgewogene Stichprobenstrategie stellt sicher, dass jede Trainingscharge eine gleiche Anzahl von Original- und kontrafaktischen Samples enthält.

Reinforcement Learning (RL) mit Duality-Normalized Advantage

Die anschließende RL-Phase verstärkt diese Fähigkeit durch die Nutzung der zuvor eingeführten paarweisen kontrastiven Aufgabe. Hierbei kommt eine neuartige Duality-Normalized Advantage-Normalisierung zum Einsatz. Diese Normalisierung gleicht die Lernsignale über verschiedene Samples aus und verhindert eine Verzerrung zugunsten realer Videos. Dies führt zu einer stabileren und effizienteren Richtlinienoptimierung, die besser auf die kontrastive Natur des Trainingssets abgestimmt ist und die Minderung von Halluzinationen verbessert.

Experimentelle Ergebnisse und ihre Implikationen

Umfassende Experimente auf dem DualityVidQA-Test, einem anspruchsvollen Benchmark mit 600 manuell kuratierten Paaren in vier detaillierten kontrafaktischen Klassen, zeigen, dass die Methode die Halluzinationen des Modells bei kontrafaktischen Videos erheblich reduziert. Es wurde eine relative Verbesserung von 24,0 % gegenüber der Qwen2.5-VL-7B-Baseline erzielt.

Leistungsverbesserung über verschiedene Benchmarks

Darüber hinaus wurden signifikante Verbesserungen sowohl bei Halluzinations- als auch bei allgemeinen Benchmarks, wie TempCompass, MVBench, TOMATO und TVBench, festgestellt. Dies deutet auf eine starke Generalisierungsfähigkeit des Ansatzes hin. Insbesondere zeigte sich, dass selbst führende Closed-Source-Modelle wie GPT-4.1 und Gemini-2.5 Pro, die auf "realen" Videos eine Genauigkeit von über 90 % erreichen, bei "kontrafaktischen" Inhalten deutlich schlechter abschnitten. Das DNA-Train-7B-Modell hingegen zeigte eine überlegene Widerstandsfähigkeit, insbesondere in der Kategorie "Counter Physical", wo es eine bemerkenswerte Leistung von 79,2 % erreichte.

Ablationsstudien bestätigen Wirksamkeit

Ablationsstudien bestätigten die Notwendigkeit des gepaarten Datenansatzes. Das Training nur mit realen oder nur mit kontrafaktischen Daten führte zu einer deutlichen Verschlechterung der Leistung. Die Duality-Normalized Advantage-Strategie zeigte ebenfalls eine klare Überlegenheit gegenüber anderen RL-Baselines, mit einer durchschnittlichen Verbesserung von 10,8 Punkten bei der Halluzinationserkennung.

Fazit

Die vorgestellte Forschung bietet einen vielversprechenden Weg zur Bewältigung der Herausforderung von Halluzinationen in MLLMs. Durch die Synthese von hochwertigen kontrafaktischen Videodaten und die Implementierung einer innovativen zweistufigen Trainingsmethode, die die visuelle Verankerung fördert, können MLLMs ein tieferes und genaueres Verständnis von Videoinhalten entwickeln. Dies ist ein entscheidender Schritt, um die Robustheit und Zuverlässigkeit dieser Modelle in komplexen, realen Anwendungen zu verbessern und ihre Fähigkeit zu stärken, visuell plausible von kontrafaktischen Hinweisen zu unterscheiden.

Bibliography: - Huang, Z., Wen, H., Hao, A., Song, B., Wu, M., Wu, J., Chu, X., Lu, S., & Wang, H. (2025). Taming Hallucinations: Boosting MLLMs' Video Understanding via Counterfactual Video Generation. arXiv preprint arXiv:2512.24271. - AMAP-ML. (2025). AMAP-ML/Taming-Hallucinations - GitHub. [URL: https://github.com/AMAP-ML/Taming-Hallucinations] - TheMoonlight.io. (n.d.). [Literature Review] Taming Hallucinations: Boosting MLLMs' Video Understanding via Counterfactual Video Generation. [URL: https://www.themoonlight.io/en/review/taming-hallucinations-boosting-mllms-video-understanding-via-counterfactual-video-generation] - alphaXiv. (n.d.). Taming Hallucinations: Boosting MLLMs' Video Understanding via Counterfactual Video Generation. [URL: https://www.alphaxiv.org/abs/2512.24271] - ChatPaper. (n.d.). Taming Hallucinations: Boosting MLLMs' Video Understanding via Counterfactual Video Generation. [URL: https://chatpaper.com/fr/paper/222796] - Hugging Face. (2026). Daily Papers. [URL: https://huggingface.co/papers/week/2026-W02] - Tang, F., Liu, C., Xu, Z., Hu, M., Peng, Z., Yang, Z., Su, J., Lin, M., Peng, Y., Cheng, X., Razzak, I., & Ge, Z. (2025). Seeing Far and Clearly: Mitigating Hallucinations in MLLMs with Attention Causal Decoding. arXiv preprint arXiv:2505.16652. - Cai, J., Zhou, W., Zhang, Z., Hong, J., Zhan, N., & Li, H. (2025). Mitigating Hallucination in VideoLLMs via Temporal-Aware Activation Engineering. arXiv preprint arXiv:2505.12826. - Li, C., Im, E. W., & Fazli, P. (2024). VidHalluc: Evaluating Temporal Hallucinations in Multimodal Large Language Models for Video Understanding. arXiv preprint arXiv:2412.03735.