Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Landschaft der Künstlichen Intelligenz entwickelt sich stetig weiter, und mit ihr die Anforderungen an autonome Systeme. Eine aktuelle Entwicklung sind Deep Research Agents (DRAs), die darauf abzielen, komplexe Forschungsaufgaben durch mehrstufige Suche und Synthese zu bewältigen. Diese Agenten sollen zitatreiche Berichte erstellen, die nicht nur textliche, sondern auch visuelle Informationen integrieren. Bisher fehlte es jedoch an einem umfassenden Benchmark, der die End-to-End-Nutzung multimodaler Evidenz in solchen Agenten adäquat bewertet. Hier setzt der kürzlich vorgestellte MMDeepResearch-Bench (MMDR-Bench) an, der als neuer Goldstandard für die Evaluierung multimodaler Deep Research Agents dienen soll.
Traditionelle Benchmarks konzentrierten sich oft auf rein textbasierte Szenarien oder kurzfristige multimodale Fragen-Antwort-Systeme. Die Realität der Forschung ist jedoch selten auf Text beschränkt. Wissenschaftliche Arbeiten, Geschäftsberichte oder technische Analysen enthalten häufig Diagramme, Infografiken, Tabellen und Bilder, die für das Verständnis und die Validierung von Behauptungen unerlässlich sind. Deep Research Agents müssen daher die Fähigkeit besitzen, visuelle Artefakte zu interpretieren, sie mit textuellen Quellen zu verknüpfen und eine kohärente, zitierungsgestützte Synthese zu erstellen.
Die Schwierigkeit liegt nicht nur in der Integration verschiedener Modalitäten, sondern auch in der Gewährleistung der Glaubwürdigkeit und Genauigkeit. Ein Bericht muss nicht nur gut geschrieben sein, sondern auch die verwendeten Quellen korrekt zitieren und die visuellen Informationen präzise widerspiegeln. Fehler in der Interpretation visueller Daten oder eine mangelnde Abstimmung zwischen Text und Bild können die Glaubwürdigkeit eines generierten Berichts erheblich beeinträchtigen.
MMDR-Bench wurde entwickelt, um diese Lücke zu schließen. Er besteht aus 140 von Experten erstellten Aufgaben, die sich über 21 verschiedene Domänen erstrecken. Jede Aufgabe wird als Bild-Text-Bündel bereitgestellt, um sowohl das multimodale Verständnis als auch die zitierungsgestützte Berichtserstellung zu bewerten. Der Benchmark legt dabei Wert auf eine berichtsähnliche Synthese mit expliziter Evidenznutzung, bei der Modelle visuelle Artefakte mit den referenzierten Behauptungen verknüpfen und die Konsistenz über Narrative, Zitate und visuelle Referenzen hinweg wahren müssen.
Um eine detaillierte und interpretierbare Bewertung zu ermöglichen, wurde eine dreistufige Evaluierungspipeline namens FLAE, TRACE und MOSAIC vorgeschlagen:
Diese modulare Struktur ermöglicht eine feingranulare Fehlerdiagnose, die über eine einzelne Gesamtpunktzahl hinausgeht.
Es wurden Experimente mit 25 hochmodernen Modellen durchgeführt, darunter Large Language Models (LLMs) und spezialisierte Deep Research Agents. Die Ergebnisse zeigten systematische Kompromisse zwischen Generierungsqualität, Zitierdisziplin und multimodaler Verankerung. Dies deutet darauf hin, dass eine gute Prosa allein keine getreue Evidenznutzung garantiert und dass die multimodale Integrität ein zentraler Engpass für Deep Research Agents bleibt.
Die Analyse der Leistung in verschiedenen Domänen zeigte deutliche Unterschiede. Bei alltäglichen Aufgaben (Daily tasks) war die Leistung volatiler, und Modelle, die mit verrauschten, benutzerähnlichen Visualisierungen (wie Screenshots) robust umgehen konnten, waren am erfolgreichsten. Bei Forschungsaufgaben (Research tasks) wurde die Leistungsdifferenz stärker domänenabhängig. Gemini Deep Research (Gemini 3 Pro) und Gemini 3 Flash (Preview) zeigten in den meisten Forschungsdomänen eine starke Leistung, während GPT-5.2 in strukturierten technischen Bereichen wie Computer- und Datenwissenschaften Spitzenwerte erreichte. Qwen 3 VL 235B (A22B) erwies sich als besonders stark in visuell dichten wissenschaftlichen Domänen wie Umwelt- und Energiewissenschaften, wo Diagramme und Abbildungen entscheidende Beweise liefern.
Die Evaluierungsmethodik wurde auch auf ihre Robustheit und Konsistenz mit menschlichen Expertenurteilen hin überprüft. Der vollständige Evaluator zeigte eine engere Übereinstimmung mit den Präferenzen von Experten als ein einfacher promptbasierter Richter. Ablationsstudien bestätigten, dass sowohl VEF als auch MOSAIC zu einer besseren, menschengerechten Bewertung beitragen.
Die Ergebnisse des MMDR-Bench unterstreichen die Notwendigkeit, bei der Entwicklung von Deep Research Agents nicht nur auf reine Textgenerierungsfähigkeiten zu achten, sondern auch die multimodale Integrität und die Fähigkeit zur präzisen Evidenzverankerung zu verbessern. Die Fähigkeit, visuelle Informationen korrekt zu interpretieren und in kontextuell relevante, zitierfähige Berichte zu integrieren, bleibt eine zentrale Herausforderung. Zukünftige Forschungsanstrengungen müssen sich auf die Entwicklung von Architekturen konzentrieren, die diese komplexen Anforderungen besser bewältigen können, um truly zuverlässige und vielseitige Deep Research Agents zu schaffen.
Der MMDeepResearch-Bench stellt einen bedeutenden Schritt in der Evaluierung multimodaler Deep Research Agents dar. Durch seine umfassende Aufgabenpalette und die detaillierte Evaluierungspipeline bietet er eine solide Grundlage, um die Fähigkeiten aktueller KI-Modelle zu bewerten und zukünftige Entwicklungen voranzutreiben. Die gewonnenen Erkenntnisse über die Stärken und Schwächen der getesteten Modelle liefern wertvolle Hinweise für die weitere Forschung und Entwicklung im Bereich der Künstlichen Intelligenz, insbesondere für die Schaffung von Agenten, die komplexe Forschungsaufgaben mit hoher Genauigkeit und Glaubwürdigkeit bewältigen können.
Bibliography: - Huang, Peizhou, et al. "MMDeepResearch-Bench: A Benchmark for Multimodal Deep Research Agents." arXiv preprint arXiv:2601.12346 (2026). - Du, Mingxuan, et al. "DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents." arXiv preprint arXiv:2506.11763 (2025). - DeepResearch Bench Project Page: https://deepresearch-bench.github.io/ - Sharma, Manasi, et al. "RESEARCHRUBRICS: A Benchmark of Prompts and Rubrics For Evaluating Deep Research Agents." arXiv preprint arXiv:2511.10842 (2025). - Yang, Rui, et al. "EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents." arXiv preprint arXiv:2502.09560 (2025). - Tao, Xijia, et al. "MMSearch-Plus: Benchmarking Provenance-Aware Search for Multimodal Browsing Agents." arXiv preprint arXiv:2508.21475 (2025). - Zhou, Yang, et al. "M^3-Bench: Multi-Modal, Multi-Hop, Multi-Threaded Tool-Using MLLM Agent Benchmark." arXiv preprint arXiv:2511.17729 (2025). - Zhang, Miaosen, et al. "MageBench: Bridging Large Multimodal Models to Agents." arXiv preprint arXiv:2412.04531 (2024).Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen