Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Integration von Künstlicher Intelligenz (KI) in wissenschaftliche Forschungsprozesse schreitet stetig voran. Insbesondere große multimodale Modelle (LMMs), die in der Lage sind, Informationen aus verschiedenen Modalitäten wie Text, Bildern, Tabellen und Gleichungen zu verarbeiten, finden zunehmend Anwendung. Eine zentrale Frage, die sich dabei stellt, ist die Zuverlässigkeit dieser Modelle beim Verstehen und logischen Schließen über die komplexe, oft heterogene Struktur wissenschaftlicher Dokumente. Eine aktuelle Studie stellt mit PRISMM-Bench einen neuartigen Benchmark vor, der sich speziell der Erkennung und Behebung multimodaler Inkonsistenzen in Fachartikeln widmet. Die initialen Testergebnisse zeigen deutliche Limitationen der aktuellen KI-Modelle in diesem anspruchsvollen Bereich auf, was weitreichende Implikationen für die Entwicklung vertrauenswürdiger KI-basierter wissenschaftlicher Assistenzsysteme hat.
Bisherige Benchmarks für multimodale Modelle konzentrierten sich oft auf isolierte Modalitäten oder verwendeten synthetische Fehler, die die Komplexität realer wissenschaftlicher Inkonsistenzen nicht adäquat abbildeten. Diese Inkonsistenzen, die sich zwischen Textbeschreibungen, grafischen Darstellungen, Tabellen und mathematischen Formeln erstrecken können, sind häufig subtil, domänenspezifisch und beeinträchtigen die Klarheit, Reproduzierbarkeit und das Vertrauen in wissenschaftliche Ergebnisse. Die Notwendigkeit eines Benchmarks, der diese realen Herausforderungen widerspiegelt, führte zur Entwicklung von PRISMM-Bench (Peer-Review-sourced Inconsistency Set for Multimodal Models).
PRISMM-Bench ist der erste Benchmark, der auf tatsächlichen, von Peer-Reviewern in wissenschaftlichen Arbeiten identifizierten Inkonsistenzen basiert. Das Team hinter PRISMM-Bench kuratierte 262 Inkonsistenzen aus 242 Fachartikeln durch einen mehrstufigen Prozess, der folgende Schritte umfasste:
Auf Basis dieses Datensatzes wurden drei spezifische Aufgaben zur Bewertung der Modellfähigkeiten entwickelt:
Ein weiterer Aspekt der Methodik ist die Einführung von strukturierten JSON-basierten Antwortdarstellungen. Dies soll das Problem der "Choice-only Shortcuts" bei Multiple-Choice-Evaluierungen minimieren, bei denen Modelle Antwortmuster ausnutzen, ohne das Problem wirklich zu verstehen. Durch die Reduzierung der Abhängigkeit von oberflächlichen stilistischen Hinweisen sollen sprachliche Verzerrungen minimiert werden.
Der Benchmark testete 21 führende LMMs, darunter sowohl große Open-Source-Modelle wie GLM-4.5V 106B und InternVL3 78B als auch proprietäre Modelle wie Gemini 2.5 Pro und GPT-5 (mit hoher Schlussfolgerungsfähigkeit). Die Ergebnisse zeigten eine überraschend geringe Leistung der Modelle, mit Genauigkeitsraten zwischen 26,1 % und 54,2 %. Diese niedrigen Werte unterstreichen die erheblichen Schwierigkeiten, die multimodale Modelle beim wissenschaftlichen Schließen und der Erkennung komplexer Inkonsistenzen haben.
Diese Erkenntnisse sind von Bedeutung für Unternehmen wie Mindverse, die sich auf die Entwicklung von KI-Lösungen für komplexe Content-Aufgaben spezialisieren. Sie zeigen auf, dass die aktuelle Generation von LMMs zwar beeindruckende Fähigkeiten in vielen Bereichen aufweist, jedoch noch erhebliche Fortschritte erzielt werden müssen, um sie zu wirklich vertrauenswürdigen wissenschaftlichen Assistenten zu entwickeln. Insbesondere die Fähigkeit, über verschiedene Datenmodalitäten hinweg konsistente Informationen zu synthetisieren und Fehler eigenständig zu korrigieren, bleibt eine Kernherausforderung.
Die Einführung von PRISMM-Bench schafft eine wichtige Grundlage für die Weiterentwicklung multimodaler KI-Modelle. Die identifizierten Schwächen weisen auf konkrete Forschungsfelder hin:
Für Mindverse und andere Akteure im Bereich der KI-gestützten Content-Erstellung bieten die Erkenntnisse von PRISMM-Bench wertvolle Orientierungspunkte. Sie verdeutlichen, dass die reine Generierung von Inhalten durch KI nur ein Teil der Lösung ist. Die Sicherstellung der Konsistenz und Korrektheit über verschiedene Informationsquellen und -modalitäten hinweg ist für professionelle B2B-Anwendungen von entscheidender Bedeutung und erfordert weiterhin intensive Forschung und Entwicklung.
Bibliography - Selch, L., Hou, Y., Mirza, M. J., Doveh, S., Glass, J., Feris, R., & Lin, W. (2022). PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies. arXiv preprint arXiv:2510.16505. - "Daily Papers - Hugging Face." Hugging Face, huggingface.co/papers/2510.16505. Accessed 20 Oct. 2025. - "PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies." Paper Reading Club, paperreading.club/page?id=349132. Accessed 18 Oct. 2025.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen