KI für Ihr Unternehmen – Jetzt Demo buchen

ViDoRe V3 Benchmark zur Bewertung multimodaler RAG-Systeme in realen Anwendungsszenarien

Kategorien:
No items found.
Freigegeben:
January 14, 2026

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • ViDoRe V3 ist ein umfassender, multimodaler Benchmark zur Bewertung von Retrieval-Augmented Generation (RAG)-Systemen in realitätsnahen Szenarien.
    • Der Benchmark umfasst 10 Datensätze aus verschiedenen Fachgebieten, rund 26.000 Dokumentseiten und 3.099 von Menschen verifizierte Anfragen in sechs Sprachen.
    • Visuelle Retriever übertreffen textbasierte Modelle, und "Late-Interaction"-Modelle sowie Text-Reranking verbessern die Leistung signifikant.
    • Hybride oder rein visuelle Kontexte optimieren die Qualität der Antwortgenerierung.
    • Aktuelle Modelle zeigen Defizite bei nicht-textuellen Elementen, offenen Anfragen und präziser visueller Verankerung.
    • Die menschliche Annotation, die 12.000 Stunden umfasste, gewährleistet die hohe Qualität und Relevanz der Daten.

    Die Weiterentwicklung von Künstlicher Intelligenz (KI) im Bereich der Sprachmodelle (Large Language Models, LLMs) hat zur Etablierung von Retrieval-Augmented Generation (RAG)-Systemen geführt, die für wissensintensive Aufgaben konzipiert sind. Diese Systeme stehen jedoch in der Praxis vor komplexen Herausforderungen, die über die reine Textverarbeitung hinausgehen. Eine neue Studie, die im Januar 2026 veröffentlicht wurde, stellt den ViDoRe V3 Benchmark vor, eine umfassende Evaluierungsplattform, die darauf abzielt, diese Lücke zu schließen und RAG-Pipelines unter realen Bedingungen zu bewerten.

    Die Herausforderung der RAG-Systeme in der Praxis

    Traditionelle Benchmarks für RAG-Systeme konzentrieren sich oft auf textuelle Daten, die Verarbeitung einzelner Dokumente oder die isolierte Bewertung von Retrieval und Generierung. In realen Geschäftsanwendungen sind Dokumente jedoch visuell reichhaltig und enthalten wichtige Informationen in Tabellen, Diagrammen und Bildern. Zudem erfordern Benutzeranfragen häufig eine Synthese von Informationen aus verschiedenen Quellen, Vergleiche und komplexe Schlussfolgerungen, anstatt einfacher Faktenabfragen. Ein weiteres kritisches Element ist die Notwendigkeit einer präzisen Quellenverankerung ("source grounding"), um Halluzinationen zu minimieren und die Vertrauenswürdigkeit der generierten Antworten zu gewährleisten.

    ViDoRe V3: Ein multimodaler und mehrsprachiger Ansatz

    Der ViDoRe V3 Benchmark wurde entwickelt, um diesen vielschichtigen Anforderungen gerecht zu werden. Er ist ein multimodaler RAG-Benchmark, der Anfragetypen über visuell reichhaltige Dokumentkorpora hinweg abdeckt. Die Hauptmerkmale des Benchmarks umfassen:

    • Umfangreiche Datensätze: ViDoRe V3 beinhaltet 10 Datensätze aus unterschiedlichen professionellen Domänen, darunter Finanzen, Informatik, Energie, Pharmazie, Personalwesen und Telekommunikation. Diese Korpora umfassen etwa 26.000 Dokumentseiten.
    • Menschlich verifizierte Anfragen: Insgesamt wurden 3.099 Anfragen manuell verifiziert, wobei jede Anfrage in sechs Sprachen (Englisch, Französisch, Spanisch, Deutsch, Italienisch und Portugiesisch) verfügbar ist. Dieser mehrsprachige Ansatz ist entscheidend, um die Leistung von RAG-Systemen in verschiedenen Sprachumgebungen zu testen.
    • Detaillierte Annotationen: Über 12.000 Stunden menschlicher Annotationsarbeit flossen in die Erstellung hochwertiger Annotationen für die Relevanz des Retrievals, die Lokalisierung von Bounding Boxes und verifizierte Referenzantworten.
    • Multimodale Abfragen: Der Benchmark deckt verschiedene Abfragetypen ab, darunter offene, extraktive, numerische, Multi-Hop-, Vergleichs- und boolesche Anfragen, sowie verschiedene Formate wie Fragen, Schlüsselwörter und Anweisungen.

    Methodologie der Benchmark-Erstellung

    Die Erstellung des Benchmarks erfolgte in einem dreistufigen Prozess mit menschlicher Beteiligung, um realistische und vielfältige Datensätze zu gewährleisten:

    1. Dokumentensammlung: Es wurden zehn vielfältige Korpora aus öffentlich lizenzierten Dokumenten von Regierungs-, Bildungs- und Industriekreisen gesammelt, hauptsächlich in Englisch und Französisch.
    2. Anfragengenerierung: Anfragen wurden sowohl synthetisch als auch von menschlichen Annotatoren generiert. Dabei wurde darauf geachtet, dass die Annotatoren keinen direkten Zugriff auf den Dokumenteninhalt hatten, um authentisches Suchverhalten zu simulieren und eine Verzerrung hin zu einfachen, extraktiven Anfragen zu vermeiden.
    3. Antwortdetektion und -generierung: Ein hybrider Ansatz aus VLM-Vorfilterung und menschlicher Annotation wurde verwendet, um relevante Seiten zu identifizieren. Anschließend generierten Annotatoren Antworten basierend auf den identifizierten Seiten und versahen diese mit Bounding Boxes zur visuellen Verankerung.

    Zentrale Ergebnisse und Implikationen für RAG-Pipelines

    Die Evaluierung modernster RAG-Pipelines mit ViDoRe V3 liefert mehrere wichtige Erkenntnisse:

    Retrieval-Leistung

    • Visuelle Retriever übertreffen textbasierte: Modelle, die visuelle Informationen verarbeiten können, zeigen eine höhere Leistung als rein textbasierte Retriever. Dies unterstreicht die Bedeutung der visuellen Wahrnehmung in komplexen Dokumenten.
    • Late-Interaction-Modelle und Text-Reranking: Die Integration von Late-Interaction-Modellen und textbasiertem Reranking führt zu einer signifikanten Verbesserung der Retrieval-Genauigkeit. Insbesondere textuelles Reranking konnte die Leistung stark steigern, während visuelles Reranking nur marginale Verbesserungen zeigte.
    • Herausforderungen bei komplexen Anfragen: Die Leistung der Retriever nimmt mit der Komplexität der Anfragen ab. Boolesche und numerische Anfragen sind einfacher zu beantworten als offene oder Multi-Hop-Anfragen.
    • Visuelle und mehrseitige Inhalte: Anfragen, die visuelle Inhalte wie Tabellen oder Bilder betreffen, sowie solche, die Informationen aus mehreren Seiten erfordern, stellen die größten Herausforderungen dar.
    • Sprachübergreifende Leistung: Die Retrieval-Leistung ist in einsprachigen Szenarien höher als in mehrsprachigen, was auf einen Bedarf an besserer Anpassung von Modellen an sprachübergreifende Kontexte hindeutet.

    Antwortgenerierung

    • Vorteil visueller Kontexte: Visuelle Kontexte verbessern die Qualität der generierten Antworten, insbesondere bei anspruchsvollen Anfragen. Dies bestätigt, dass die Beibehaltung visueller Inhalte für eine präzisere und fundiertere Antwortgenerierung unerlässlich ist.
    • Beste Leistung durch hybrides Retrieval: Eine Kombination aus visuellen und textuellen Retrieval-Ansätzen ("Hybrid-Pipeline") erzielt die höchste Genauigkeit bei schwierigen Anfragen. Dies deutet darauf hin, dass Text- und Bildrepräsentationen unterschiedliche Aspekte von Dokumentinhalten erfassen und ihre Kombination zu robusteren Ergebnissen führt.
    • Grenzen des parametrischen Wissens: Selbst mit idealen Kontexten ("Oracle") bleibt die Leistung bei schwierigen Anfragen deutlich hinter der bei einfachen Anfragen zurück. Dies unterstreicht, dass aktuelle Modelle noch Schwierigkeiten mit komplexen mehrstufigen Schlussfolgerungen und der Synthese langer Kontexte haben.
    • Potenzial für Retriever-Verbesserungen: Der signifikante Unterschied zwischen der besten Nicht-Oracle-Leistung und der idealen Leistung des "Image Oracle" zeigt, dass es noch erheblichen Raum für Verbesserungen in der Retrieval-Pipeline gibt.

    Visuelle Verankerung (Visual Grounding)

    • Deutliche Lücke zur menschlichen Leistung: Die Fähigkeit von LLMs, präzise Bounding Boxes zur Markierung relevanter Inhalte zu generieren, bleibt weit hinter der menschlichen Leistung zurück. Während menschliche Annotatoren eine F1-Bewertung von 0,602 erreichen, liegen die besten Modelle bei etwa 0,089.
    • Herausforderung des Recalls: Die Analyse zeigt, dass der Recall, also die Fähigkeit des Modells, überhaupt relevante Bereiche zu identifizieren, ein primäres Problem darstellt. Ein erheblicher Prozentsatz der von Menschen annotierten Seiten wird von den Modellen gar nicht markiert.

    Fazit und Ausblick

    ViDoRe V3 etabliert sich als ein entscheidender Benchmark für die Bewertung multimodaler RAG-Systeme in realen Anwendungsszenarien. Die Ergebnisse zeigen, dass zwar visuelle Retriever und hybride Ansätze vielversprechend sind, es jedoch weiterhin erhebliche Herausforderungen gibt, insbesondere bei der Verarbeitung nicht-textueller Elemente, der Beantwortung offener Fragen und der präzisen visuellen Verankerung. Der Benchmark wurde in das MTEB-Leaderboard integriert und soll die Forschung auf diesem Gebiet vorantreiben, um robustere Dokumentenverständnissysteme zu entwickeln.

    Die Arbeit identifiziert klare Forschungsrichtungen: Verbesserungen bei Retriever-Modellen für sprachübergreifende und offene Anfragen mit visueller Interpretation sind notwendig. Zudem müssen VLM-Fähigkeiten zur Antwortgenerierung aus mehrseitigen Kontexten sowie zur präzisen visuellen Verankerung weiterentwickelt werden. Einschränkungen des Benchmarks, wie die Beschränkung auf englische und französische Quelldokumente und europäische Sprachen, sowie ein Bias in der Dokumentenverteilung, werden ebenfalls transparent dargelegt.

    Die ethischen Überlegungen der Studie umfassen das Wohlergehen der Annotatoren, die Datenlizenzierung und den Schutz der Privatsphäre sowie sprachliche und geografische Verzerrungen. Der erhebliche Rechenaufwand für die Benchmark-Erstellung und -Evaluierung wurde ebenfalls transparent gemacht, um den ökologischen Fußabdruck zu berücksichtigen.

    Insgesamt bietet ViDoRe V3 eine fundierte Grundlage für die Weiterentwicklung von RAG-Technologien, indem es die Komplexität realer Anwendungsfälle abbildet und wichtige Impulse für zukünftige Innovationen in der KI-Forschung liefert.

    Bibliographie

    • Loison, A., Macé, Q., Edy, A., Xing, V., Balough, T., Moreira, G., Liu, B., Faysse, M., Hudelot, C., & Viaud, G. (2026). ViDoRe V3: A Comprehensive Evaluation of Retrieval Augmented Generation in Complex Real-World Scenarios. arXiv preprint arXiv:2601.08620.
    • Hugging Face. (n.d.). ViDoRe V3: A Comprehensive Evaluation of Retrieval Augmented Generation in Complex Real-World Scenarios. Retrieved from https://huggingface.co/papers/2601.08620
    • Hugging Face. (n.d.). Vidore. Retrieved from https://huggingface.co/vidore/papers
    • Mace, Q., Loison, A., & Faysse, M. (2025). ViDoRe Benchmark V2: Raising the Bar for Visual Retrieval. arXiv preprint arXiv:2505.17166.
    • Wang, Q., Ding, R., Chen, Z., Wu, W., Wang, S., Xie, P., & Zhao, F. (2025). ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents. arXiv preprint arXiv:2502.18017.

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen