Jetzt reinschauen – neue Umgebung live

Neuer Benchmark MMR-V zur Bewertung multimodalen Schlussfolgerns in Videos

Kategorien:
No items found.
Freigegeben:
June 6, 2025

Artikel jetzt als Podcast anhören

Multimodales Schlussfolgern in Videos: Der neue Benchmark MMR-V

Künstliche Intelligenz (KI) hat in den letzten Jahren enorme Fortschritte gemacht, insbesondere im Bereich der multimodalen großen Sprachmodelle (MLLMs). Diese Modelle können Text, Bilder und in zunehmendem Maße auch Videos verarbeiten und verstehen. Doch wie gut sind diese Modelle wirklich im komplexen Schlussfolgern innerhalb von Videos? Ein neuer Benchmark namens MMR-V (Multimodal Deep Reasoning in Videos) soll genau diese Frage beantworten und die Grenzen aktueller MLLMs aufzeigen.

Bisherige Benchmarks für Videos konzentrierten sich hauptsächlich auf Verständnisaufgaben. Dabei müssen die Modelle lediglich die im Fragetext erwähnten Frames (im Folgenden "Frage-Frame" genannt) erkennen und einige benachbarte Frames verarbeiten. Die sequenzielle Struktur von Videos stellt jedoch eine besondere Herausforderung dar, wenn es darum geht, Beweise über mehrere Frames hinweg zu finden und multimodale Schlussfolgerungen zu ziehen. Genau hier setzt MMR-V an.

MMR-V zeichnet sich durch drei Hauptmerkmale aus:

- Langfristiges, Multi-Frame-Reasoning: Die Modelle müssen Beweis-Frames ableiten und analysieren, die möglicherweise weit vom Frage-Frame entfernt sind. - Schlussfolgerungen über die Wahrnehmung hinaus: Die Fragen können nicht allein durch direkte Wahrnehmung beantwortet werden, sondern erfordern Schlussfolgerungen über versteckte Informationen. - Zuverlässigkeit und Vermeidung von Abkürzungen: Alle Aufgaben wurden manuell annotiert und beziehen sich auf ein umfassendes Verständnis der realen Welt, um mit gängigen Wahrnehmungen übereinzustimmen. Darüber hinaus wurden spezielle Strategien zur Annotation von Ablenkern entwickelt, um Modell-Shortcuts zu reduzieren.

Der Benchmark besteht aus 317 Videos und 1.257 Aufgaben. Erste Experimente zeigen, dass aktuelle Modelle noch immer mit multimodalem Schlussfolgern zu kämpfen haben. Selbst das leistungsstärkste Modell, o4-mini, erreicht nur eine Genauigkeit von 52,5%. Auch aktuelle Strategien zur Verbesserung des Schlussfolgerns, wie Chain-of-Thought (CoT) und die Erhöhung der Rechenleistung während des Tests, bringen nur begrenzte Verbesserungen.

Weitere Analysen deuten darauf hin, dass sich das für multimodales Schlussfolgern erforderliche CoT von dem im textuellen Schlussfolgern unterscheidet. Dies erklärt teilweise die begrenzten Leistungssteigerungen. Die Entwickler von MMR-V hoffen, dass der Benchmark weitere Forschung zur Verbesserung der multimodalen Schlussfolgerungsfähigkeiten anregen wird.

Die Herausforderungen, die MMR-V aufzeigt, sind relevant für verschiedene Anwendungsbereiche von KI, darunter die Entwicklung von intelligenten Videoanalyse-Systemen, die automatische Generierung von Videozusammenfassungen und die Entwicklung von fortschrittlichen Chatbots und virtuellen Assistenten, die Videos verstehen und interpretieren können.

Für Unternehmen wie Mindverse, die sich auf die Entwicklung von KI-gestützten Content-Tools, Chatbots, Voicebots und KI-Suchmaschinen spezialisiert haben, sind die Ergebnisse von MMR-V besonders relevant. Die Entwicklung von robusten und zuverlässigen multimodalen KI-Systemen erfordert ein tiefes Verständnis der Herausforderungen im Bereich des multimodalen Schlussfolgerns. MMR-V bietet eine wertvolle Grundlage für die Bewertung und Verbesserung solcher Systeme und trägt dazu bei, die Grenzen der KI im Umgang mit Videos zu erweitern.

Bibliographie: https://www.arxiv.org/abs/2506.04141 https://huggingface.co/papers/2506.04141 https://paperreading.club/page?id=313414 https://huggingface.co/papers https://papers.cool/arxiv/cs.CV https://arxiv.org/list/cs.CV/new https://chatpaper.com/chatpaper/?id=4&date=1749052800&page=1 http://140.143.194.41/ https://link.springer.com/content/pdf/10.1007/978-3-642-15751-6.pdf https://aclanthology.org/events/ws-2021/
Was bedeutet das?

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.