KI für Ihr Unternehmen – Jetzt Demo buchen

Neues automatisiertes Framework zur Bewertung komplexer Forschungsaufgaben in der Künstlichen Intelligenz

Kategorien:
No items found.
Freigegeben:
January 15, 2026

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Das neue Framework "DeepResearchEval" ermöglicht die automatisierte Erstellung komplexer Forschungsaufgaben und deren Bewertung.
    • Es adressiert die Herausforderungen bestehender Benchmarks, die oft manuelle Annotation erfordern, statische Bewertungsdimensionen nutzen oder Fakten ohne Zitationen nicht zuverlässig überprüfen können.
    • Das Framework umfasst eine persona-gesteuerte Pipeline zur Aufgabengenerierung und eine agentische Evaluierungspipeline mit adaptiver Qualitätsbewertung und aktiver Faktenprüfung.
    • Erste Experimente zeigen signifikante Leistungsunterschiede zwischen führenden Deep-Research-Systemen, wobei Gemini-2.5-Pro und Manus besonders hervorstechen.
    • Die Methodik wurde auf Konsistenz, Stabilität und Übereinstimmung mit menschlichen Gutachten validiert.

    Die rapide Entwicklung von Large Language Models (LLMs) hat zu einem Paradigmenwechsel in der Künstlichen Intelligenz geführt, weg von passiver Textgenerierung hin zu agentischen Systemen, die komplexe Aufgaben in der realen Welt bewältigen können. Innerhalb dieser Transformation haben sich Deep-Research-Systeme als ein repräsentatives Beispiel etabliert. Diese Systeme führen autonome Untersuchungsprozesse durch, die iteratives Webresearch, gezielte Informationsbeschaffung, quellenübergreifende Verifikation und multiperspektivische Synthese umfassen. Das Ergebnis sind umfassende, zitationsgestützte Berichte, die traditionell einen erheblichen menschlichen Aufwand erfordern.

    Die Evaluierung derartiger, von Deep-Research-Systemen generierter Langberichte stellt jedoch eine zentrale Herausforderung dar, da sie sich erheblich von konventionellen QA-Aufgaben unterscheidet. Bestehende Benchmarks weisen oft Einschränkungen auf: Sie erfordern häufig eine annotationsintensive Aufgabenerstellung durch Experten, stützen sich auf statische Bewertungsdimensionen oder versagen bei der zuverlässigen Faktenüberprüfung, wenn Zitationen fehlen. Um diese Lücken zu schließen, wurde DeepResearchEval, ein automatisiertes Framework für die Konstruktion von Deep-Research-Aufgaben und deren agentische Evaluierung, vorgestellt.

    Automatisierte Aufgabenkonstruktion: Ein Persona-gesteuerter Ansatz

    Die Erstellung hochwertiger Deep-Research-Aufgaben war bisher zeitaufwendig und teuer, da sie stark von der Annotation durch Experten abhängig war. Dies führte zu einer Begrenzung durch individuelle Hintergründe und Domänenwissen der Annotatoren sowie zu statischen Aufgabensammlungen, die schwer zu aktualisieren sind.

    Die dreistufige Pipeline

    DeepResearchEval begegnet diesen Herausforderungen mit einer automatisierten, persona-gesteuerten Pipeline zur Aufgabenerstellung, die reale Produktionsabläufe widerspiegelt:

    • Persona-Synthese: Um eine breite Palette realer Informationsbedürfnisse abzudecken, werden zehn repräsentative Domänen (z.B. Transport, Politik, Finanzen & Wirtschaft, Wissenschaft & Technologie) definiert. Für jede Domäne generiert ein LLM fünf Personas mit unterschiedlichen Hintergründen, Rollen und Zugehörigkeiten. Insgesamt entstehen so 50 Personas.
    • Aufgabenkonstruktion: Für jede Persona generiert ein LLM vier Kandidaten für Deep-Research-Aufgaben. Dabei wird eine hohe Komplexität sichergestellt, indem die Anforderungen an mehrstufige Websuchen, die Integration von Evidenz aus verschiedenen Quellen (z.B. wissenschaftliche Arbeiten, Berichte, Foren), eine ausreichende analytische Tiefe (z.B. Trendbewertung, vergleichende Analyse) und konkrete, zeitlich begrenzte Ergebnisse mit 10-50 Wörtern Beschreibung festgelegt werden. Dies resultiert in 200 Aufgabenkandidaten.
    • Aufgabenfilterung: Eine zweistufige Filterung stellt die Qualität der Aufgaben sicher:
      • Task Qualification Filter: Ein LLM-basierter Evaluator bewertet, ob eine Aufgabe aktuelles Wissen, multi-source Evidenzintegration, mehrschichtige Tiefenuntersuchung und die Ausrichtung an der Persona erfordert. Nur Aufgaben mit einem Konfidenzwert über 0,7 werden beibehalten.
      • Search Necessity Filter: Aufgaben, die mit dem internen parametrischen Wissen eines LLM ohne externe Suche gelöst werden können, werden ausgeschlossen. Ein separater Evaluator bewertet eine solche "No-Search-Baseline" nach Genauigkeit, Tiefe, Aktualität, Professionalität und Struktur. Aufgaben, die hierbei hohe Qualitätswerte erzielen, werden herausgefiltert.

    Nach diesen Filterstufen verbleiben 155 Aufgaben. Eine menschliche Überprüfung durch sieben promovierte Domänenexperten bestätigte, dass 80 % der Aufgaben von mindestens vier Experten als qualifiziert eingestuft wurden. Für die Evaluierung wurden schließlich 100 hochwertige Aufgaben basierend auf menschlichen Rankings ausgewählt, um praktische Kostenbeschränkungen zu berücksichtigen.

    Agentische Evaluierung: Adaptive Qualität und aktive Faktenprüfung

    Die Evaluierung von Deep-Research-Berichten erfordert eine nuancierte Herangehensweise, da deren Inhalt und Struktur stark variieren können. Ein festes, allgemeines Bewertungsschema ist oft unzureichend.

    Adaptive Punktuelle Qualitätsbewertung

    DeepResearchEval schlägt ein adaptives, punktuelles Qualitätsbewertungssystem vor, das diesen Herausforderungen begegnet:

    • Kombination aus allgemeinen und aufgabenspezifischen Dimensionen: Für jede Aufgabe werden vier allgemeine Bewertungsdimensionen definiert: Abdeckung, Einsicht, Befolgung von Anweisungen und Klarheit. Diese erfassen wesentliche Berichtqualitäten, die über alle Aufgaben hinweg anwendbar sind. Zusätzlich werden aufgabenspezifische Dimensionen generiert, die auf die jeweilige Aufgabe zugeschnitten sind. Beispielsweise könnten bei einem Ländervergleich von Politiken "Metrik-Nützlichkeit" und "Vergleichende Synthese" als aufgabenspezifische Dimensionen hinzugefügt werden.
    • Gewichtete Kriterien: Jede Dimension wird mit einer Reihe von Kriterien versehen, denen wiederum normalisierte Gewichte zugewiesen werden. Dies ermöglicht eine feingranulare, kriterienbasierte Bewertung.
    • Aggregierte Bewertung: Der endgültige Qualitätswert wird durch Aggregation der Kriterienwerte innerhalb jeder Dimension und anschließende Kombination aller Dimensionen gemäß ihrer aufgabenspezifischen Gewichte berechnet.

    Dieser Ansatz ermöglicht eine relevantere und umfassendere Bewertung der Berichtsqualität und eine detaillierte Analyse auf Ebene einzelner Dimensionen und Kriterien.

    Aktive Faktenprüfung

    Zusätzlich zur Qualitätsbewertung ist die Überprüfung der faktischen Korrektheit von entscheidender Bedeutung, insbesondere bei Deep-Research-Berichten. Bestehende Methoden, die sich auf Zitationen stützen, versagen, wenn diese fehlen oder wenn die Überprüfung die faktische Korrektheit und nicht nur die Unterstützung durch eine Quelle betrifft.

    Das Framework integriert daher einen aktiven Faktenprüfungsmechanismus, der externe Evidenz proaktiv abruft und prüft:

    • Segmentierung und Extraktion von Aussagen: Der generierte Bericht wird in kleinere Segmente unterteilt. Aus jedem Segment werden überprüfbare Aussagen extrahiert, die Entitäten wie Zahlen, Ereignisse, Daten, Orte oder Personen betreffen.
    • Evidenz-Retrieval und Verifikation: Für jede Aussage wird ein Retrieval-Tool verwendet, um relevante Evidenz aus dem Web zu sammeln. Basierend auf der Konsistenz zwischen der Aussage und der abgerufenen Evidenz wird der Aussage eines von drei Labels zugewiesen: "Richtig", "Falsch" oder "Unbekannt". "Unbekannt" kennzeichnet dabei unüberprüfbare Behauptungen explizit als solche und unterscheidet sie von Fehlern.
    • Kontextbewusste Beurteilung: Obwohl die Verifikation auf Aussageebene erfolgt, berücksichtigt der Agent den vollständigen Segmentkontext und die zugehörige Deep-Research-Aufgabe, um kontext- und aufgabenkonsistente Urteile zu gewährleisten.

    Die Ergebnisse, einschließlich Labels, Evidenz und Begründung, werden im JSON-Format zurückgegeben. Die Metrik "Ratio" wird als Anteil der "richtigen" Aussagen an allen überprüften Aussagen definiert.

    Experimentelle Ergebnisse und Validierung

    Das Framework wurde zur Evaluierung von neun führenden kommerziellen Deep-Research-Systemen eingesetzt, darunter OpenAI Deep Research, Gemini-2.5-Pro Deep Research und Claude-Sonnet-4.5 Deep Research. Für jedes System wurden 100 Berichte auf Basis der generierten Aufgaben erstellt und bewertet.

    Gesamtqualitätsbewertung

    Die Ergebnisse der punktuellen Qualitätsbewertung zeigten eine klare Hierarchie: Gemini-2.5-Pro Deep Research erreichte die höchste Durchschnittsnote (8,51) und führte in allen Dimensionen (Abdeckung, Einsicht, Befolgung von Anweisungen und Klarheit), gefolgt von Claude-Sonnet-4.5 Deep Research (7,53). Diese Systeme zeigten starke Fähigkeiten in der Informationsbeschaffung, Synthese und Ausführung komplexer Anweisungen.

    Interessanterweise waren die aufgabenspezifischen Bewertungen durchweg niedriger als die allgemeinen Bewertungen über alle Systeme hinweg. Dies deutet darauf hin, dass die aktuellen Deep-Research-Systeme oft Schwierigkeiten haben, aufgabenspezifische Erfolgskriterien zu erfüllen, was die Relevanz adaptiver Bewertungsdimensionen unterstreicht.

    Faktische Evaluierung

    Bei der faktischen Evaluierung, bei der Aussagen pro Bericht bewertet wurden, erreichten Top-Performer wie Manus, Gemini-2.5-Pro und DeepSeek Ratios von über 76 %, was auf eine überlegene Zuverlässigkeit hindeutet. Im Gegensatz dazu zeigten Perplexity und Claude-Sonnet-4.5 niedrigere Ratios, was mehr unüberprüfbare oder inkorrekte Aussagen impliziert.

    Es gab zudem erhebliche Unterschiede im Umfang der Aussagen: Gemini-2.5-Pro und Doubao produzierten deutlich mehr Behauptungen, was zu dichteren Berichten führte, während DeepSeek eine konservativere Strategie verfolgte. Die Analyse ergab ferner, dass "falsche" Aussagen im Vergleich zu "unbekannten" Aussagen selten waren, was darauf hindeutet, dass faktische Risiken eher von schwach fundierten Behauptungen als von direkten Fehlern herrühren.

    Validierung der Bewertungsmethoden

    Die Zuverlässigkeit der Methoden wurde durch Analysen zur konsistenz über mehrere Gutachter (Cross-Judge Consistency), stochastischen Stabilität und Mensch-Modell-Alignment validiert:

    • Cross-Judge Consistency: Ein Vergleich der Qualitätsbewertung durch Gemini-2.5-Pro als primärem Richter und GPT-5 als sekundärem Richter zeigte eine hohe Ranglistenkonsistenz, obwohl GPT-5 strengere Bewertungen vergab.
    • Stochastic Stability: Drei unabhängige Durchläufe mit Gemini-2.5-Pro zeigten unveränderte Ranglisten und minimale Standardabweichungen der Scores, was eine hohe Stabilität der Evaluierung belegt.
    • Human-Model Alignment: Bei der aktiven Faktenprüfung wurde eine Übereinstimmung von 73 % mit menschlichen Experten erzielt. Eine manuelle Überprüfung der inkonsistenten Aussagen ergab, dass die automatisierte Bewertung in 70 % der Fälle korrekt war, oft aufgrund ihrer umfassenden Überprüfungsmöglichkeiten.

    Fazit und Ausblick

    DeepResearchEval bietet ein automatisiertes Framework, das die Konstruktion realistischer, komplexer Deep-Research-Aufgaben ohne manuelle Annotation ermöglicht und eine agentische Evaluierung der Berichtsqualität und Faktizität bietet. Die adaptive punktuelle Qualitätsbewertung und die aktive Faktenprüfung durch externen Evidenzabruf tragen dazu bei, die Leistung generierter Langberichte umfassend zu bewerten.

    Die Experimente an neun Deep-Research-Systemen haben signifikante Leistungsunterschiede aufgezeigt und die Effektivität des Frameworks demonstriert. Es liefert wertvolle Einblicke in die Stärken und Schwächen aktueller Systeme und motiviert zur Entwicklung adaptiverer Evaluierungsmethoden.

    Einschränkungen

    Trotz der Effektivität weist das Framework einige praktische Einschränkungen auf. Die aktuelle Implementierung ist weitgehend englischzentriert. Obwohl die persona-gesteuerte Aufgabengenerierung und die adaptiven Bewertungsmechanismen sprachunabhängig sind, sind die Benchmark-Aufgaben, Evidenzquellen und Berichts-Pipelines im englischsprachigen Informationsökosystem verankert. Die Leistung in mehrsprachigen Umgebungen und die Fähigkeit, Evidenz über verschiedene Sprachen hinweg zu synthetisieren, bleiben daher unerforscht.

    Darüber hinaus verursacht die agentische Evaluierungspipeline erhebliche Rechen- und Finanzierungskosten. Das Framework stützt sich auf häufige Interaktionen mit modernen Modellen wie Gemini-2.5-Pro für die Qualitätsbewertung und GPT-5-mini für die Faktenprüfung, zusammen mit einer intensiven Nutzung der Google Serper API. Während das multiturn- und toolintensive Design des Faktenprüfungs-Agenten eine hohe Evaluierungstiefe ermöglicht, schränkt es die Skalierbarkeit für große oder Echtzeit-Bereitstellungen unter begrenzten Ressourcen ein.

    Bibliographie

    - Wang, Y., Wang, L., Deng, Y., Wu, K., Xiao, Y., Yao, H., Kang, L., Ye, H., Jing, Y., & Bing, L. (2026). DeepResearchEval: An Automated Framework for Deep Research Task Construction and Agentic Evaluation. *arXiv preprint arXiv:2601.09688*. - OpenAI. (2025). Deep Research System Card. - Hugging Face. (2026). Daily Papers – DeepResearchEval. - Infinity-AILab. (2026). GitHub – Infinity-AILab/DeepResearchEval.

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen