Neue Maßstäbe für multimodale KI-Modelle: PRISMM-Bench und die Herausforderung wissenschaftlicher Inkonsistenzen

Kategorien:

No items found.

Freigegeben:

October 31, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

PRISMM-Bench ist ein neuer Benchmark zur Bewertung der Fähigkeit von multimodalen KI-Modellen, Inkonsistenzen in wissenschaftlichen Publikationen zu erkennen und zu beheben.
Der Benchmark basiert auf 262 realen, von Gutachtern identifizierten Inkonsistenzen aus 242 wissenschaftlichen Arbeiten, die Text, Abbildungen, Tabellen und Gleichungen umfassen.
Drei Hauptaufgaben wurden definiert: Inkonsistenzidentifikation, Korrektur und Paar-Matching.
Tests mit 21 führenden multimodalen Modellen, darunter sowohl Open-Source- als auch proprietäre Modelle, zeigten eine überraschend geringe Leistung (26,1 % bis 54,2 % Genauigkeit).
Die Ergebnisse unterstreichen die Herausforderungen im multimodalen wissenschaftlichen Schließen und die Notwendigkeit vertrauenswürdiger wissenschaftlicher Assistenzsysteme.

Herausforderung Multimodalität: Einblicke in PRISMM-Bench und die Leistungsfähigkeit von KI-Modellen bei wissenschaftlichen Inkonsistenzen

Die Integration von Künstlicher Intelligenz (KI) in wissenschaftliche Forschungsprozesse schreitet stetig voran. Insbesondere große multimodale Modelle (LMMs), die in der Lage sind, Informationen aus verschiedenen Modalitäten wie Text, Bildern, Tabellen und Gleichungen zu verarbeiten, finden zunehmend Anwendung. Eine zentrale Frage, die sich dabei stellt, ist die Zuverlässigkeit dieser Modelle beim Verstehen und logischen Schließen über die komplexe, oft heterogene Struktur wissenschaftlicher Dokumente. Eine aktuelle Studie stellt mit PRISMM-Bench einen neuartigen Benchmark vor, der sich speziell der Erkennung und Behebung multimodaler Inkonsistenzen in Fachartikeln widmet. Die initialen Testergebnisse zeigen deutliche Limitationen der aktuellen KI-Modelle in diesem anspruchsvollen Bereich auf, was weitreichende Implikationen für die Entwicklung vertrauenswürdiger KI-basierter wissenschaftlicher Assistenzsysteme hat.

Die Notwendigkeit eines neuen Benchmarks: Realistische Bewertung multimodaler Modelle

Bisherige Benchmarks für multimodale Modelle konzentrierten sich oft auf isolierte Modalitäten oder verwendeten synthetische Fehler, die die Komplexität realer wissenschaftlicher Inkonsistenzen nicht adäquat abbildeten. Diese Inkonsistenzen, die sich zwischen Textbeschreibungen, grafischen Darstellungen, Tabellen und mathematischen Formeln erstrecken können, sind häufig subtil, domänenspezifisch und beeinträchtigen die Klarheit, Reproduzierbarkeit und das Vertrauen in wissenschaftliche Ergebnisse. Die Notwendigkeit eines Benchmarks, der diese realen Herausforderungen widerspiegelt, führte zur Entwicklung von PRISMM-Bench (Peer-Review-sourced Inconsistency Set for Multimodal Models).

PRISMM-Bench: Aufbau und Methodik

PRISMM-Bench ist der erste Benchmark, der auf tatsächlichen, von Peer-Reviewern in wissenschaftlichen Arbeiten identifizierten Inkonsistenzen basiert. Das Team hinter PRISMM-Bench kuratierte 262 Inkonsistenzen aus 242 Fachartikeln durch einen mehrstufigen Prozess, der folgende Schritte umfasste:

Review Mining: Analyse von Gutachten, um real existierende Inkonsistenzen zu identifizieren.
LLM-unterstützte Filterung: Einsatz von Sprachmodellen zur Vorfilterung und Kategorisierung der gefundenen Inkonsistenzen.
Menschliche Verifizierung: Manuelle Überprüfung und Validierung der kuratierten Inkonsistenzen durch menschliche Experten, um die Qualität und Relevanz des Datensatzes sicherzustellen.

Auf Basis dieses Datensatzes wurden drei spezifische Aufgaben zur Bewertung der Modellfähigkeiten entwickelt:

Inkonsistenzidentifikation: Modelle müssen in der Lage sein, Inkonsistenzen innerhalb eines Dokuments zu erkennen.
Korrektur von Inkonsistenzen (Remedy): Die Modelle sollen Vorschläge zur Behebung der identifizierten Unstimmigkeiten unterbreiten.
Paar-Matching: Modelle sollen zusammengehörige, konsistente Informationspaare über verschiedene Modalitäten hinweg identifizieren.

Ein weiterer Aspekt der Methodik ist die Einführung von strukturierten JSON-basierten Antwortdarstellungen. Dies soll das Problem der "Choice-only Shortcuts" bei Multiple-Choice-Evaluierungen minimieren, bei denen Modelle Antwortmuster ausnutzen, ohne das Problem wirklich zu verstehen. Durch die Reduzierung der Abhängigkeit von oberflächlichen stilistischen Hinweisen sollen sprachliche Verzerrungen minimiert werden.

Ergebnisse und Implikationen

Der Benchmark testete 21 führende LMMs, darunter sowohl große Open-Source-Modelle wie GLM-4.5V 106B und InternVL3 78B als auch proprietäre Modelle wie Gemini 2.5 Pro und GPT-5 (mit hoher Schlussfolgerungsfähigkeit). Die Ergebnisse zeigten eine überraschend geringe Leistung der Modelle, mit Genauigkeitsraten zwischen 26,1 % und 54,2 %. Diese niedrigen Werte unterstreichen die erheblichen Schwierigkeiten, die multimodale Modelle beim wissenschaftlichen Schließen und der Erkennung komplexer Inkonsistenzen haben.

Diese Erkenntnisse sind von Bedeutung für Unternehmen wie Mindverse, die sich auf die Entwicklung von KI-Lösungen für komplexe Content-Aufgaben spezialisieren. Sie zeigen auf, dass die aktuelle Generation von LMMs zwar beeindruckende Fähigkeiten in vielen Bereichen aufweist, jedoch noch erhebliche Fortschritte erzielt werden müssen, um sie zu wirklich vertrauenswürdigen wissenschaftlichen Assistenten zu entwickeln. Insbesondere die Fähigkeit, über verschiedene Datenmodalitäten hinweg konsistente Informationen zu synthetisieren und Fehler eigenständig zu korrigieren, bleibt eine Kernherausforderung.

Ausblick und zukünftige Forschungsrichtungen

Die Einführung von PRISMM-Bench schafft eine wichtige Grundlage für die Weiterentwicklung multimodaler KI-Modelle. Die identifizierten Schwächen weisen auf konkrete Forschungsfelder hin:

Verbesserung des multimodalen Verständnisses: Es bedarf weiterer Forschung, um Modelle zu entwickeln, die ein tieferes Verständnis für die semantischen und strukturellen Beziehungen zwischen verschiedenen Modalitäten in wissenschaftlichen Dokumenten aufbauen können.
Robustere Fehlererkennung und -korrektur: Die Fähigkeit, subtile und domänenspezifische Inkonsistenzen zuverlässig zu identifizieren und plausible Korrekturvorschläge zu generieren, muss erheblich verbessert werden.
Entwicklung vertrauenswürdiger KI-Assistenten: Für den Einsatz in kritischen wissenschaftlichen Anwendungen ist es unerlässlich, die Verlässlichkeit und Transparenz von KI-Modellen zu erhöhen. Dies beinhaltet auch die Fähigkeit, die eigene Unsicherheit bei der Erkennung und Behebung von Inkonsistenzen zu kommunizieren.

Für Mindverse und andere Akteure im Bereich der KI-gestützten Content-Erstellung bieten die Erkenntnisse von PRISMM-Bench wertvolle Orientierungspunkte. Sie verdeutlichen, dass die reine Generierung von Inhalten durch KI nur ein Teil der Lösung ist. Die Sicherstellung der Konsistenz und Korrektheit über verschiedene Informationsquellen und -modalitäten hinweg ist für professionelle B2B-Anwendungen von entscheidender Bedeutung und erfordert weiterhin intensive Forschung und Entwicklung.

Bibliography - Selch, L., Hou, Y., Mirza, M. J., Doveh, S., Glass, J., Feris, R., & Lin, W. (2022). PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies. arXiv preprint arXiv:2510.16505. - "Daily Papers - Hugging Face." Hugging Face, huggingface.co/papers/2510.16505. Accessed 20 Oct. 2025. - "PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies." Paper Reading Club, paperreading.club/page?id=349132. Accessed 18 Oct. 2025.