Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
In der dynamischen Landschaft der Künstlichen Intelligenz (KI) haben sich große Sprachmodelle (Large Language Models, LLMs) als transformative Technologie etabliert. Ihre Fähigkeit, kohärente und kontextuell relevante Texte zu generieren, eröffnet neue Möglichkeiten in zahlreichen Anwendungsbereichen. Jedoch sind LLMs mit Herausforderungen wie faktischen Fehlern, veralteten Informationen und sogenannten "Halluzinationen" konfrontiert. Um diese Limitationen zu adressieren, wurde die Retrieval-Augmented Generation (RAG) entwickelt. Bei RAG-Systemen werden LLMs durch das dynamische Abrufen externer Informationen ergänzt, was die Genauigkeit und Zuverlässigkeit der generierten Antworten signifikant verbessert.
Aktuelle Forschungen erweitern das RAG-Paradigma durch die Einführung "agentischer" RAG-Systeme. In diesen Systemen agieren LLMs als autonome Agenten, die komplexe Abfragen iterativ planen, Informationen abrufen und Schlussfolgerungen ziehen. Trotz dieser Fortschritte zeigen diese Systeme bei anspruchsvollen "Multi-Hop"-Fragen, die das Verknüpfen von Informationen aus mehreren Quellen erfordern, weiterhin Schwächen. Die zugrunde liegenden Fähigkeiten, die für die Bearbeitung dieser Zwischenschritte notwendig sind, bleiben oft unerforscht. Hier setzt RAGCap-Bench an – ein neuer, fähigkeitsorientierter Benchmark, der eine detaillierte Bewertung der Zwischenaufgaben in agentischen RAG-Workflows ermöglicht.
Agentic RAG-Systeme stellen einen wichtigen Schritt in der Entwicklung von KI-Assistenten dar. Sie sollen nicht nur Informationen abrufen, sondern auch in der Lage sein, komplexe Probleme eigenständig zu analysieren und zu lösen. Dies erfordert eine Reihe von Fähigkeiten, die über die bloße Texterzeugung hinausgehen:
Insbesondere bei Multi-Hop-Fragen, die das Zusammenführen von Fakten aus verschiedenen Dokumenten oder Wissensdomänen erfordern, stoßen bestehende Systeme oft an ihre Grenzen. Die Schwierigkeit liegt nicht nur im Auffinden der relevanten Informationen, sondern auch darin, diese korrekt zu interpretieren, zu integrieren und daraus eine fundierte Antwort abzuleiten. Die fehlende Transparenz und die "Black-Box"-Natur vieler LLMs erschweren zudem die Diagnose von Fehlern in diesen komplexen Prozessen.
Um die genannten Herausforderungen zu adressieren, wurde RAGCap-Bench entwickelt. Dieser Benchmark zielt darauf ab, eine feinkörnige Bewertung der Zwischenaufgaben in agentischen RAG-Workflows zu ermöglichen. Die Methodik umfasst mehrere Schritte:
Zunächst werden die Ausgaben modernster RAG-Systeme analysiert, um die gängigen Aufgaben und die dafür erforderlichen Kernfähigkeiten zu identifizieren. Dies beinhaltet die Untersuchung, wie diese Systeme Informationen abrufen, verarbeiten und zu einer Antwort zusammenführen.
Basierend auf dieser Analyse wird eine Taxonomie typischer LLM-Fehler erstellt. Diese Kategorisierung hilft dabei, die spezifischen Schwachstellen der Modelle zu verstehen. Beispiele für Fehlerkategorien könnten sein:
Mithilfe der erstellten Fehlertaxonomie werden gezielte Evaluationsfragen entwickelt. Diese Fragen sind so konzipiert, dass sie spezifische Fähigkeiten der LLMs in den agentischen RAG-Workflows testen. Der Fokus liegt dabei auf den Zwischenschritten, die oft übersehen werden, aber entscheidend für die Endleistung sind.
Die Experimente mit RAGCap-Bench zeigen, dass Modelle, die als "slow-thinking" bezeichnet werden – also solche, die eine stärkere Leistung bei den RAGCap-Fähigkeiten aufweisen – insgesamt bessere End-to-End-Ergebnisse erzielen. Dies unterstreicht die Validität des Benchmarks und die Bedeutung der Verbesserung dieser Zwischenfähigkeiten. Es deutet darauf hin, dass die Qualität der einzelnen Schritte innerhalb eines agentischen RAG-Systems direkt mit der Gesamtleistung korreliert.
Die Forschung zeigt, dass die Effektivität von RAG-Systemen je nach Domäne und Fragetyp variiert. Einfache, faktenbasierte Abfragen profitieren am meisten von RAG. In komplexeren Bereichen, in denen Antworten weniger standardisiert und stärker kontextabhängig sind, wie beispielsweise im Rechtswesen, können RAG-Systeme besonders vorteilhaft sein. Ein Beispiel hierfür ist die Frage nach dem ultimativen Ziel eines Rechtssystems. Während ein LLM ohne Kontext "Gerechtigkeit" nennen könnte, würde ein RAG-System, das auf spezifische Lehrbücher zugreift, die im Text genannte "common good" (Gemeinwohl) als Antwort liefern, was eine höhere Ausrichtung an der Ground Truth darstellt.
Eine zentrale Erkenntnis ist, dass traditionelle Retrieval-Optimierungstechniken wie Re-Ranking in spezialisierten, kleinen Wissensdatenbanken nur minimale Vorteile bieten. Stattdessen liegt der primäre Leistungsengpass in der Verfügbarkeit relevanter Kontexte für die meisten Abfragen. Dies wird durch Vergleiche zwischen fortschrittlicheren Retrieval-Techniken (z.B. OpenAI's Assistants API) und Basis-RAG-Systemen deutlich: Obwohl die Leistung bei verfügbarem "Gold-Kontext" ähnlich ist, führt im realen Einsatz ein unzureichender relevanter Kontext oft zu plausiblen, aber potenziell irreführenden Antworten.
Die Diskrepanz zwischen Benchmark-Leistung (mit idealem Kontext) und realer Leistung weist auf zwei Hauptbereiche für Verbesserungen hin:
1. Erweiterung der Wissensbasis: Für domänenspezifische Anwendungen ist eine umfassendere Abdeckung der Wissensbasis entscheidend.
2. Mechanismen zur Erkennung unzureichenden Kontexts: Es müssen bessere Methoden entwickelt werden, um zu erkennen, wann der abgerufene Kontext nicht ausreicht, um zuverlässige Antworten zu generieren.
Die Einführung von RAGCap-Bench bietet eine solide Grundlage für die Weiterentwicklung agentischer RAG-Systeme. Zukünftige Arbeiten könnten sich auf folgende Bereiche konzentrieren:
Die kontinuierliche Forschung und Entwicklung in diesen Bereichen wird dazu beitragen, die Zuverlässigkeit, Genauigkeit und Leistungsfähigkeit von LLMs in komplexen, wissensintensiven Anwendungen weiter zu steigern und somit den praktischen Nutzen für B2B-Anwendungen zu maximieren.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen