RAGCap-Bench: Neuer Benchmark zur Bewertung agentischer RAG-Systeme

Kategorien:

No items found.

Freigegeben:

October 20, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

RAGCap-Bench ist ein neuer Benchmark zur detaillierten Bewertung von Agentic RAG-Systemen.
Der Fokus liegt auf der Analyse der Fähigkeiten von LLMs bei Zwischenaufgaben innerhalb komplexer Abfragen.
Fehler von LLMs werden kategorisiert, um gezielte Verbesserungen zu ermöglichen.
"Slow-thinking"-Modelle mit hoher RAGCap-Leistung erzielen bessere Endergebnisse.
Die Studie unterstreicht die Notwendigkeit, diese Zwischenfähigkeiten für eine optimierte Leistung zu stärken.

In der dynamischen Landschaft der Künstlichen Intelligenz (KI) haben sich große Sprachmodelle (Large Language Models, LLMs) als transformative Technologie etabliert. Ihre Fähigkeit, kohärente und kontextuell relevante Texte zu generieren, eröffnet neue Möglichkeiten in zahlreichen Anwendungsbereichen. Jedoch sind LLMs mit Herausforderungen wie faktischen Fehlern, veralteten Informationen und sogenannten "Halluzinationen" konfrontiert. Um diese Limitationen zu adressieren, wurde die Retrieval-Augmented Generation (RAG) entwickelt. Bei RAG-Systemen werden LLMs durch das dynamische Abrufen externer Informationen ergänzt, was die Genauigkeit und Zuverlässigkeit der generierten Antworten signifikant verbessert.

Aktuelle Forschungen erweitern das RAG-Paradigma durch die Einführung "agentischer" RAG-Systeme. In diesen Systemen agieren LLMs als autonome Agenten, die komplexe Abfragen iterativ planen, Informationen abrufen und Schlussfolgerungen ziehen. Trotz dieser Fortschritte zeigen diese Systeme bei anspruchsvollen "Multi-Hop"-Fragen, die das Verknüpfen von Informationen aus mehreren Quellen erfordern, weiterhin Schwächen. Die zugrunde liegenden Fähigkeiten, die für die Bearbeitung dieser Zwischenschritte notwendig sind, bleiben oft unerforscht. Hier setzt RAGCap-Bench an – ein neuer, fähigkeitsorientierter Benchmark, der eine detaillierte Bewertung der Zwischenaufgaben in agentischen RAG-Workflows ermöglicht.

Die Herausforderung der Agentic RAG-Systeme

Agentic RAG-Systeme stellen einen wichtigen Schritt in der Entwicklung von KI-Assistenten dar. Sie sollen nicht nur Informationen abrufen, sondern auch in der Lage sein, komplexe Probleme eigenständig zu analysieren und zu lösen. Dies erfordert eine Reihe von Fähigkeiten, die über die bloße Texterzeugung hinausgehen:

Planung: Die Fähigkeit, eine Strategie zur Beantwortung einer komplexen Frage zu entwickeln.
Abruf: Die effiziente Identifizierung und Extraktion relevanter Informationen aus umfangreichen Wissensdatenbanken.
Argumentation: Die logische Verknüpfung und Analyse der abgerufenen Informationen, um eine kohärente und korrekte Antwort zu formulieren.

Insbesondere bei Multi-Hop-Fragen, die das Zusammenführen von Fakten aus verschiedenen Dokumenten oder Wissensdomänen erfordern, stoßen bestehende Systeme oft an ihre Grenzen. Die Schwierigkeit liegt nicht nur im Auffinden der relevanten Informationen, sondern auch darin, diese korrekt zu interpretieren, zu integrieren und daraus eine fundierte Antwort abzuleiten. Die fehlende Transparenz und die "Black-Box"-Natur vieler LLMs erschweren zudem die Diagnose von Fehlern in diesen komplexen Prozessen.

RAGCap-Bench: Ein fähigkeitsorientierter Benchmark

Um die genannten Herausforderungen zu adressieren, wurde RAGCap-Bench entwickelt. Dieser Benchmark zielt darauf ab, eine feinkörnige Bewertung der Zwischenaufgaben in agentischen RAG-Workflows zu ermöglichen. Die Methodik umfasst mehrere Schritte:

Analyse von State-of-the-Art-Systemen

Zunächst werden die Ausgaben modernster RAG-Systeme analysiert, um die gängigen Aufgaben und die dafür erforderlichen Kernfähigkeiten zu identifizieren. Dies beinhaltet die Untersuchung, wie diese Systeme Informationen abrufen, verarbeiten und zu einer Antwort zusammenführen.

Taxonomie typischer LLM-Fehler

Basierend auf dieser Analyse wird eine Taxonomie typischer LLM-Fehler erstellt. Diese Kategorisierung hilft dabei, die spezifischen Schwachstellen der Modelle zu verstehen. Beispiele für Fehlerkategorien könnten sein:

Ungenauer Abruf: Das System findet nicht alle relevanten Dokumente oder ruft irrelevante Informationen ab.
Fehlende Integration: Das System kann abgerufene Informationen nicht korrekt verknüpfen, um Multi-Hop-Fragen zu beantworten.
Fehlerhafte Argumentation: Das System zieht falsche Schlüsse aus den korrekt abgerufenen Informationen.
Halluzinationen: Das System generiert plausible, aber faktisch falsche Informationen, selbst wenn relevante Daten verfügbar sind.

Entwicklung gezielter Evaluationsfragen

Mithilfe der erstellten Fehlertaxonomie werden gezielte Evaluationsfragen entwickelt. Diese Fragen sind so konzipiert, dass sie spezifische Fähigkeiten der LLMs in den agentischen RAG-Workflows testen. Der Fokus liegt dabei auf den Zwischenschritten, die oft übersehen werden, aber entscheidend für die Endleistung sind.

Experimentelle Ergebnisse und Implikationen

Die Experimente mit RAGCap-Bench zeigen, dass Modelle, die als "slow-thinking" bezeichnet werden – also solche, die eine stärkere Leistung bei den RAGCap-Fähigkeiten aufweisen – insgesamt bessere End-to-End-Ergebnisse erzielen. Dies unterstreicht die Validität des Benchmarks und die Bedeutung der Verbesserung dieser Zwischenfähigkeiten. Es deutet darauf hin, dass die Qualität der einzelnen Schritte innerhalb eines agentischen RAG-Systems direkt mit der Gesamtleistung korreliert.

Leistung über verschiedene Domänen

Die Forschung zeigt, dass die Effektivität von RAG-Systemen je nach Domäne und Fragetyp variiert. Einfache, faktenbasierte Abfragen profitieren am meisten von RAG. In komplexeren Bereichen, in denen Antworten weniger standardisiert und stärker kontextabhängig sind, wie beispielsweise im Rechtswesen, können RAG-Systeme besonders vorteilhaft sein. Ein Beispiel hierfür ist die Frage nach dem ultimativen Ziel eines Rechtssystems. Während ein LLM ohne Kontext "Gerechtigkeit" nennen könnte, würde ein RAG-System, das auf spezifische Lehrbücher zugreift, die im Text genannte "common good" (Gemeinwohl) als Antwort liefern, was eine höhere Ausrichtung an der Ground Truth darstellt.

Herausforderungen bei der Datenverfügbarkeit

Eine zentrale Erkenntnis ist, dass traditionelle Retrieval-Optimierungstechniken wie Re-Ranking in spezialisierten, kleinen Wissensdatenbanken nur minimale Vorteile bieten. Stattdessen liegt der primäre Leistungsengpass in der Verfügbarkeit relevanter Kontexte für die meisten Abfragen. Dies wird durch Vergleiche zwischen fortschrittlicheren Retrieval-Techniken (z.B. OpenAI's Assistants API) und Basis-RAG-Systemen deutlich: Obwohl die Leistung bei verfügbarem "Gold-Kontext" ähnlich ist, führt im realen Einsatz ein unzureichender relevanter Kontext oft zu plausiblen, aber potenziell irreführenden Antworten.

Verbesserungspotenziale

Die Diskrepanz zwischen Benchmark-Leistung (mit idealem Kontext) und realer Leistung weist auf zwei Hauptbereiche für Verbesserungen hin:

1. Erweiterung der Wissensbasis: Für domänenspezifische Anwendungen ist eine umfassendere Abdeckung der Wissensbasis entscheidend.

2. Mechanismen zur Erkennung unzureichenden Kontexts: Es müssen bessere Methoden entwickelt werden, um zu erkennen, wann der abgerufene Kontext nicht ausreicht, um zuverlässige Antworten zu generieren.

Ausblick und zukünftige Forschungsrichtungen

Die Einführung von RAGCap-Bench bietet eine solide Grundlage für die Weiterentwicklung agentischer RAG-Systeme. Zukünftige Arbeiten könnten sich auf folgende Bereiche konzentrieren:

Dynamische Datenbankerweiterung: Entwicklung von Pipelines, die die Wissensdatenbank basierend auf Abfragemustern dynamisch erweitern.
Tool-Integration: Verbesserung der Integration von Tools und adaptiven Retrieval-Strategien in agentische Lösungen.
Fehlerbehebungsmechanismen: Implementierung von Eskalationsmechanismen für unbeantwortete oder problematische Abfragen.
Multimodale RAG: Die Integration von multimodalen Daten (Text, Bilder, Audio) in RAG-Systeme, um eine umfassendere Kontextualisierung zu ermöglichen.
Standardisierte Evaluationsmetriken: Die Entwicklung branchenweiter, standardisierter Metriken zur Bewertung von RAG-Systemen, die über einfache Genauigkeitswerte hinausgehen und Aspekte wie Kohärenz, Faktizität und Kontextrelevanz umfassen.

Die kontinuierliche Forschung und Entwicklung in diesen Bereichen wird dazu beitragen, die Zuverlässigkeit, Genauigkeit und Leistungsfähigkeit von LLMs in komplexen, wissensintensiven Anwendungen weiter zu steigern und somit den praktischen Nutzen für B2B-Anwendungen zu maximieren.

Bibliographie

- Lin, J., Zhang, C., Liu, S. Y., & Li, H. (2022). RAGCap-Bench: Benchmarking Capabilities of LLMs in Agentic Retrieval Augmented Generation Systems. arXiv preprint arXiv:2510.13910. - Amugongo, L. M., Mascheroni, P., Brooks, S., Doering, S., & Seidel, J. (2025). Retrieval augmented generation for large language models in healthcare: A systematic review. PLOS Digital Health, 4(6), e0000877. - Friel, R., Belyi, M., & Sanyal, A. (2024). RAGBench: Explainable Benchmark for Retrieval-Augmented Generation Systems. arXiv preprint arXiv:2407.11005. - Chen, J., Lin, H., Han, X., & Sun, L. (2023). Benchmarking Large Language Models in Retrieval-Augmented Generation. arXiv preprint arXiv:2309.01431. - Lim, W., Li, Z., Kim, G., Ji, S., Kim, H., Choi, K., ... & Wang, W. Y. (2025). MacRAG: Compress, Slice, and Scale-up for Multi-Scale Adaptive Context RAG. arXiv preprint arXiv:2505.06569. - Kuo, T. L., Liao, F. T., Hsieh, M. W., Chang, F. C., Hsu, P. C., & Shiu, D. S. (2025, April). RAD-Bench: Evaluating Large Language Models’ Capabilities in Retrieval Augmented Dialogues. In Proceedings of the 2025 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Industry Track) (pp. 868-902). - Wang, K., Harjono, K., & Lawrence, R. (2025, April). Benchmarking Customized LLM-Based Retrieval-Augmented Generation Frameworks with Deployment Validation. In Proceedings of the 2025 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Industry Track) (pp. 655-661).