Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Fortschritte im Bereich der Multimodalen Großen Sprachmodelle (MLLMs) sind beeindruckend, insbesondere im Videoverständnis. Dennoch weisen diese Modelle eine kritische Schwachstelle auf: eine übermäßige Abhängigkeit von sprachlichen Vorkenntnissen, die zu "visuell unbegründeten Halluzinationen" führen kann. Dieses Phänomen tritt besonders häufig auf, wenn MLLMs Videos verarbeiten, die kontrafaktische Phänomene darstellen, also Inhalte, die dem gesunden Menschenverstand widersprechen.
Halluzinationen in MLLMs manifestieren sich, wenn die Modelle linguistisch plausible, aber visuell inkonsistente Antworten generieren. Dies geschieht, weil sie sich oft auf gelernte Common-Sense-Priors verlassen, anstatt ihre Antworten im tatsächlichen visuellen Inhalt zu verankern. Die Schwierigkeit, dieses Problem zu beheben, liegt in der inhärenten Datenungleichheit zwischen Text und Video: Die Menge und Vielfalt der Textdaten übertrifft die der Videodaten bei weitem. Das Sammeln und Annotieren von kontrafaktischen Videodaten ist zudem mit erheblichem Aufwand verbunden.
Um diese Herausforderung zu meistern, wurde das Framework DualityForge eingeführt. Dieses Framework nutzt kontrollierbare, diffusionsbasierte Videobearbeitung, um reale Videos in kontrafaktische Szenarien umzuwandeln. Ein Beispiel hierfür ist das Entfernen eines Objekts mitten im Clip, um ein plötzliches Verschwinden zu simulieren.
Durch die Einbettung strukturierter Kontextinformationen (z.B. Ereignistyp, zeitliche Position) in den Videobearbeitungs- und QA-Generierungsprozess kann DualityForge automatisch hochwertige Fragen-Antworten-Paare zusammen mit Original- und bearbeiteten Videopaaren für das kontrastive Training produzieren. Dieser Ansatz ermöglicht die präzise Kontrolle über die generierten Ereignisse und liefert MLLMs explizite Hinweise zum Verständnis kontrafaktischer Phänomene.
Auf Basis von DualityForge wurde DualityVidQA entwickelt, ein großskaliges Videodataset, das darauf abzielt, MLLM-Halluzinationen zu reduzieren. Es umfasst 104.000 Samples für Supervised Fine-Tuning (SFT) und 40.000 für Reinforcement Learning (RL), was insgesamt 144.000 Trainingssamples ergibt. Dieses Dataset beinhaltet 81.000 einzigartige Videos mit einer Gesamtdauer von etwa 100 Stunden. Eine Besonderheit sind die "Shared-Question"-Kontrast-QA-Paare, bei denen dieselbe Frage für das Originalvideo und das bearbeitete Video unterschiedliche korrekte Antworten erfordert. Dies zwingt das Modell, seine Schlussfolgerungen auf kritische visuelle Beweise zu stützen, anstatt sich auf Sprach-Priors zu verlassen.
Zur vollständigen Nutzung der kontrastiven Natur der gepaarten Daten wurde Duality-Normalized Advantage Training (DNA-Train) vorgeschlagen. Dies ist ein zweistufiges Trainingsregime (SFT gefolgt von RL), das darauf abzielt, Halluzinationen zu mindern und gleichzeitig die Leistung in realen Szenarien zu erhalten.
In der SFT-Phase wird ein hybrides Dataset aus realen und kontrafaktischen Videos verwendet. Ziel ist es, dem Modell die Fähigkeit zu vermitteln, Anomalien zu erkennen, ohne die Leistung bei realen Videos zu beeinträchtigen. Eine ausgewogene Stichprobenstrategie stellt sicher, dass jede Trainingscharge eine gleiche Anzahl von Original- und kontrafaktischen Samples enthält.
Die anschließende RL-Phase verstärkt diese Fähigkeit durch die Nutzung der zuvor eingeführten paarweisen kontrastiven Aufgabe. Hierbei kommt eine neuartige Duality-Normalized Advantage-Normalisierung zum Einsatz. Diese Normalisierung gleicht die Lernsignale über verschiedene Samples aus und verhindert eine Verzerrung zugunsten realer Videos. Dies führt zu einer stabileren und effizienteren Richtlinienoptimierung, die besser auf die kontrastive Natur des Trainingssets abgestimmt ist und die Minderung von Halluzinationen verbessert.
Umfassende Experimente auf dem DualityVidQA-Test, einem anspruchsvollen Benchmark mit 600 manuell kuratierten Paaren in vier detaillierten kontrafaktischen Klassen, zeigen, dass die Methode die Halluzinationen des Modells bei kontrafaktischen Videos erheblich reduziert. Es wurde eine relative Verbesserung von 24,0 % gegenüber der Qwen2.5-VL-7B-Baseline erzielt.
Darüber hinaus wurden signifikante Verbesserungen sowohl bei Halluzinations- als auch bei allgemeinen Benchmarks, wie TempCompass, MVBench, TOMATO und TVBench, festgestellt. Dies deutet auf eine starke Generalisierungsfähigkeit des Ansatzes hin. Insbesondere zeigte sich, dass selbst führende Closed-Source-Modelle wie GPT-4.1 und Gemini-2.5 Pro, die auf "realen" Videos eine Genauigkeit von über 90 % erreichen, bei "kontrafaktischen" Inhalten deutlich schlechter abschnitten. Das DNA-Train-7B-Modell hingegen zeigte eine überlegene Widerstandsfähigkeit, insbesondere in der Kategorie "Counter Physical", wo es eine bemerkenswerte Leistung von 79,2 % erreichte.
Ablationsstudien bestätigten die Notwendigkeit des gepaarten Datenansatzes. Das Training nur mit realen oder nur mit kontrafaktischen Daten führte zu einer deutlichen Verschlechterung der Leistung. Die Duality-Normalized Advantage-Strategie zeigte ebenfalls eine klare Überlegenheit gegenüber anderen RL-Baselines, mit einer durchschnittlichen Verbesserung von 10,8 Punkten bei der Halluzinationserkennung.
Die vorgestellte Forschung bietet einen vielversprechenden Weg zur Bewältigung der Herausforderung von Halluzinationen in MLLMs. Durch die Synthese von hochwertigen kontrafaktischen Videodaten und die Implementierung einer innovativen zweistufigen Trainingsmethode, die die visuelle Verankerung fördert, können MLLMs ein tieferes und genaueres Verständnis von Videoinhalten entwickeln. Dies ist ein entscheidender Schritt, um die Robustheit und Zuverlässigkeit dieser Modelle in komplexen, realen Anwendungen zu verbessern und ihre Fähigkeit zu stärken, visuell plausible von kontrafaktischen Hinweisen zu unterscheiden.
Bibliography: - Huang, Z., Wen, H., Hao, A., Song, B., Wu, M., Wu, J., Chu, X., Lu, S., & Wang, H. (2025). Taming Hallucinations: Boosting MLLMs' Video Understanding via Counterfactual Video Generation. arXiv preprint arXiv:2512.24271. - AMAP-ML. (2025). AMAP-ML/Taming-Hallucinations - GitHub. [URL: https://github.com/AMAP-ML/Taming-Hallucinations] - TheMoonlight.io. (n.d.). [Literature Review] Taming Hallucinations: Boosting MLLMs' Video Understanding via Counterfactual Video Generation. [URL: https://www.themoonlight.io/en/review/taming-hallucinations-boosting-mllms-video-understanding-via-counterfactual-video-generation] - alphaXiv. (n.d.). Taming Hallucinations: Boosting MLLMs' Video Understanding via Counterfactual Video Generation. [URL: https://www.alphaxiv.org/abs/2512.24271] - ChatPaper. (n.d.). Taming Hallucinations: Boosting MLLMs' Video Understanding via Counterfactual Video Generation. [URL: https://chatpaper.com/fr/paper/222796] - Hugging Face. (2026). Daily Papers. [URL: https://huggingface.co/papers/week/2026-W02] - Tang, F., Liu, C., Xu, Z., Hu, M., Peng, Z., Yang, Z., Su, J., Lin, M., Peng, Y., Cheng, X., Razzak, I., & Ge, Z. (2025). Seeing Far and Clearly: Mitigating Hallucinations in MLLMs with Attention Causal Decoding. arXiv preprint arXiv:2505.16652. - Cai, J., Zhou, W., Zhang, Z., Hong, J., Zhan, N., & Li, H. (2025). Mitigating Hallucination in VideoLLMs via Temporal-Aware Activation Engineering. arXiv preprint arXiv:2505.12826. - Li, C., Im, E. W., & Fazli, P. (2024). VidHalluc: Evaluating Temporal Hallucinations in Multimodal Large Language Models for Video Understanding. arXiv preprint arXiv:2412.03735.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen