Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die rapide Entwicklung von Large Language Models (LLMs) hat zu einem Paradigmenwechsel in der Künstlichen Intelligenz geführt, weg von passiver Textgenerierung hin zu agentischen Systemen, die komplexe Aufgaben in der realen Welt bewältigen können. Innerhalb dieser Transformation haben sich Deep-Research-Systeme als ein repräsentatives Beispiel etabliert. Diese Systeme führen autonome Untersuchungsprozesse durch, die iteratives Webresearch, gezielte Informationsbeschaffung, quellenübergreifende Verifikation und multiperspektivische Synthese umfassen. Das Ergebnis sind umfassende, zitationsgestützte Berichte, die traditionell einen erheblichen menschlichen Aufwand erfordern.
Die Evaluierung derartiger, von Deep-Research-Systemen generierter Langberichte stellt jedoch eine zentrale Herausforderung dar, da sie sich erheblich von konventionellen QA-Aufgaben unterscheidet. Bestehende Benchmarks weisen oft Einschränkungen auf: Sie erfordern häufig eine annotationsintensive Aufgabenerstellung durch Experten, stützen sich auf statische Bewertungsdimensionen oder versagen bei der zuverlässigen Faktenüberprüfung, wenn Zitationen fehlen. Um diese Lücken zu schließen, wurde DeepResearchEval, ein automatisiertes Framework für die Konstruktion von Deep-Research-Aufgaben und deren agentische Evaluierung, vorgestellt.
Die Erstellung hochwertiger Deep-Research-Aufgaben war bisher zeitaufwendig und teuer, da sie stark von der Annotation durch Experten abhängig war. Dies führte zu einer Begrenzung durch individuelle Hintergründe und Domänenwissen der Annotatoren sowie zu statischen Aufgabensammlungen, die schwer zu aktualisieren sind.
DeepResearchEval begegnet diesen Herausforderungen mit einer automatisierten, persona-gesteuerten Pipeline zur Aufgabenerstellung, die reale Produktionsabläufe widerspiegelt:
Nach diesen Filterstufen verbleiben 155 Aufgaben. Eine menschliche Überprüfung durch sieben promovierte Domänenexperten bestätigte, dass 80 % der Aufgaben von mindestens vier Experten als qualifiziert eingestuft wurden. Für die Evaluierung wurden schließlich 100 hochwertige Aufgaben basierend auf menschlichen Rankings ausgewählt, um praktische Kostenbeschränkungen zu berücksichtigen.
Die Evaluierung von Deep-Research-Berichten erfordert eine nuancierte Herangehensweise, da deren Inhalt und Struktur stark variieren können. Ein festes, allgemeines Bewertungsschema ist oft unzureichend.
DeepResearchEval schlägt ein adaptives, punktuelles Qualitätsbewertungssystem vor, das diesen Herausforderungen begegnet:
Dieser Ansatz ermöglicht eine relevantere und umfassendere Bewertung der Berichtsqualität und eine detaillierte Analyse auf Ebene einzelner Dimensionen und Kriterien.
Zusätzlich zur Qualitätsbewertung ist die Überprüfung der faktischen Korrektheit von entscheidender Bedeutung, insbesondere bei Deep-Research-Berichten. Bestehende Methoden, die sich auf Zitationen stützen, versagen, wenn diese fehlen oder wenn die Überprüfung die faktische Korrektheit und nicht nur die Unterstützung durch eine Quelle betrifft.
Das Framework integriert daher einen aktiven Faktenprüfungsmechanismus, der externe Evidenz proaktiv abruft und prüft:
Die Ergebnisse, einschließlich Labels, Evidenz und Begründung, werden im JSON-Format zurückgegeben. Die Metrik "Ratio" wird als Anteil der "richtigen" Aussagen an allen überprüften Aussagen definiert.
Das Framework wurde zur Evaluierung von neun führenden kommerziellen Deep-Research-Systemen eingesetzt, darunter OpenAI Deep Research, Gemini-2.5-Pro Deep Research und Claude-Sonnet-4.5 Deep Research. Für jedes System wurden 100 Berichte auf Basis der generierten Aufgaben erstellt und bewertet.
Die Ergebnisse der punktuellen Qualitätsbewertung zeigten eine klare Hierarchie: Gemini-2.5-Pro Deep Research erreichte die höchste Durchschnittsnote (8,51) und führte in allen Dimensionen (Abdeckung, Einsicht, Befolgung von Anweisungen und Klarheit), gefolgt von Claude-Sonnet-4.5 Deep Research (7,53). Diese Systeme zeigten starke Fähigkeiten in der Informationsbeschaffung, Synthese und Ausführung komplexer Anweisungen.
Interessanterweise waren die aufgabenspezifischen Bewertungen durchweg niedriger als die allgemeinen Bewertungen über alle Systeme hinweg. Dies deutet darauf hin, dass die aktuellen Deep-Research-Systeme oft Schwierigkeiten haben, aufgabenspezifische Erfolgskriterien zu erfüllen, was die Relevanz adaptiver Bewertungsdimensionen unterstreicht.
Bei der faktischen Evaluierung, bei der Aussagen pro Bericht bewertet wurden, erreichten Top-Performer wie Manus, Gemini-2.5-Pro und DeepSeek Ratios von über 76 %, was auf eine überlegene Zuverlässigkeit hindeutet. Im Gegensatz dazu zeigten Perplexity und Claude-Sonnet-4.5 niedrigere Ratios, was mehr unüberprüfbare oder inkorrekte Aussagen impliziert.
Es gab zudem erhebliche Unterschiede im Umfang der Aussagen: Gemini-2.5-Pro und Doubao produzierten deutlich mehr Behauptungen, was zu dichteren Berichten führte, während DeepSeek eine konservativere Strategie verfolgte. Die Analyse ergab ferner, dass "falsche" Aussagen im Vergleich zu "unbekannten" Aussagen selten waren, was darauf hindeutet, dass faktische Risiken eher von schwach fundierten Behauptungen als von direkten Fehlern herrühren.
Die Zuverlässigkeit der Methoden wurde durch Analysen zur konsistenz über mehrere Gutachter (Cross-Judge Consistency), stochastischen Stabilität und Mensch-Modell-Alignment validiert:
DeepResearchEval bietet ein automatisiertes Framework, das die Konstruktion realistischer, komplexer Deep-Research-Aufgaben ohne manuelle Annotation ermöglicht und eine agentische Evaluierung der Berichtsqualität und Faktizität bietet. Die adaptive punktuelle Qualitätsbewertung und die aktive Faktenprüfung durch externen Evidenzabruf tragen dazu bei, die Leistung generierter Langberichte umfassend zu bewerten.
Die Experimente an neun Deep-Research-Systemen haben signifikante Leistungsunterschiede aufgezeigt und die Effektivität des Frameworks demonstriert. Es liefert wertvolle Einblicke in die Stärken und Schwächen aktueller Systeme und motiviert zur Entwicklung adaptiverer Evaluierungsmethoden.
Trotz der Effektivität weist das Framework einige praktische Einschränkungen auf. Die aktuelle Implementierung ist weitgehend englischzentriert. Obwohl die persona-gesteuerte Aufgabengenerierung und die adaptiven Bewertungsmechanismen sprachunabhängig sind, sind die Benchmark-Aufgaben, Evidenzquellen und Berichts-Pipelines im englischsprachigen Informationsökosystem verankert. Die Leistung in mehrsprachigen Umgebungen und die Fähigkeit, Evidenz über verschiedene Sprachen hinweg zu synthetisieren, bleiben daher unerforscht.
Darüber hinaus verursacht die agentische Evaluierungspipeline erhebliche Rechen- und Finanzierungskosten. Das Framework stützt sich auf häufige Interaktionen mit modernen Modellen wie Gemini-2.5-Pro für die Qualitätsbewertung und GPT-5-mini für die Faktenprüfung, zusammen mit einer intensiven Nutzung der Google Serper API. Während das multiturn- und toolintensive Design des Faktenprüfungs-Agenten eine hohe Evaluierungstiefe ermöglicht, schränkt es die Skalierbarkeit für große oder Echtzeit-Bereitstellungen unter begrenzten Ressourcen ein.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen