KI für Ihr Unternehmen – Jetzt Demo buchen

Ein neuer Standard für die Bewertung von Retrieval-Modellen: Der Retrieval Embedding Benchmark (RTEB)

Kategorien:
No items found.
Freigegeben:
October 2, 2025

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • RTEB (Retrieval Embedding Benchmark) ist ein neuer Standard zur Bewertung der Retrieval-Genauigkeit von Embedding-Modellen für praxisnahe Anwendungen.
    • Bestehende Benchmarks weisen oft eine "Generalisierungslücke" auf und sind nicht immer auf aktuelle KI-Anwendungen abgestimmt.
    • RTEB verwendet eine hybride Strategie aus offenen und privaten Datensätzen, um Überanpassung zu vermeiden und eine echte Generalisierungsfähigkeit zu messen.
    • Der Benchmark ist auf reale Unternehmensanwendungen zugeschnitten, mehrsprachig und domänenspezifisch (z.B. Recht, Gesundheitswesen, Finanzen, Code).
    • NDCG@10 ist die Standardmetrik für die Bewertung der Qualität von Suchergebnissen.
    • RTEB wird als Gemeinschaftsprojekt entwickelt und lädt zur aktiven Teilnahme und zum Feedback ein.

    Neuer Standard für die Retrieval-Bewertung: Einführung des Retrieval Embedding Benchmark (RTEB)

    Die Leistungsfähigkeit zahlreicher KI-Anwendungen, von RAG-Systemen (Retrieval-Augmented Generation) über intelligente Agenten bis hin zu Empfehlungssystemen, hängt maßgeblich von der Qualität der zugrunde liegenden Such- und Retrieval-Mechanismen ab. Für Entwickler stellt die präzise Messung der Retrieval-Qualität von Embedding-Modellen daher einen zentralen Herausforderungspunkt dar. Es geht um die Frage, wie man die tatsächliche Leistung eines Modells in realen Einsatzszenarien zuverlässig beurteilen kann.

    Die bisherigen Bewertungsstandards basieren oft auf der "Zero-Shot"-Leistung von Modellen auf öffentlichen Benchmarks. Diese Methode stellt jedoch bestenfalls eine Annäherung an die wahre Generalisierungsfähigkeit eines Modells dar. Wenn Modelle wiederholt an denselben öffentlichen Datensätzen evaluiert werden, kann eine Diskrepanz zwischen den gemeldeten Ergebnissen und der tatsächlichen Leistung auf neuen, ungesehenen Daten entstehen. Um diese Problematik anzugehen, wurde der Retrieval Embedding Benchmark (RTEB) entwickelt, ein neuer Standard, der eine zuverlässigere Bewertung von Retrieval-Modellen ermöglichen soll.

    Defizite bestehender Benchmarks

    Obwohl die zugrunde liegenden Bewertungsmethoden und Metriken, wie beispielsweise NDCG@10, etabliert und robust sind, sehen sich bestehende Benchmarks mit mehreren Herausforderungen konfrontiert, die ihre Integrität beeinträchtigen können:

    Die Generalisierungslücke

    Das aktuelle Benchmark-Ökosystem kann unbeabsichtigt dazu führen, dass Modelle auf die spezifischen Testdaten hin optimiert werden ("teaching to the test"). Wenn Trainingsdatenquellen mit Bewertungsdatensätzen überlappen, können die Ergebnisse eines Modells überhöht erscheinen, was die Aussagekraft des Benchmarks mindert. Diese Praxis, ob beabsichtigt oder nicht, ist in den Trainingsdatensätzen einiger Modelle erkennbar. Dies führt zu einem Rückkopplungsmechanismus, bei dem Modelle für das Auswendiglernen von Testdaten belohnt werden, anstatt robuste, generalisierbare Fähigkeiten zu entwickeln. Infolgedessen können Modelle mit einem niedrigeren Zero-Shot-Score in Benchmarks sehr gut abschneiden, ohne jedoch auf neue Probleme zu generalisieren. Daher werden oft Modelle mit einer etwas geringeren Benchmark-Leistung, aber einem höheren Zero-Shot-Score empfohlen.

    Fehlende Ausrichtung an modernen KI-Anwendungen

    Viele Benchmarks sind unzureichend auf die aktuellen Anwendungsfälle in Unternehmen ausgerichtet. Sie stützen sich oft auf akademische Datensätze oder Retrieval-Aufgaben, die aus QA-Datensätzen (Question-Answering) abgeleitet wurden. Obwohl diese Datensätze in ihrem ursprünglichen Kontext nützlich sind, wurden sie nicht speziell für die Bewertung von Retrieval-Systemen konzipiert und können die Verteilungsungleichgewichte und Komplexitäten realer Retrieval-Szenarien nicht vollständig erfassen. Benchmarks, die diese Probleme nicht aufweisen, sind häufig zu eng gefasst und konzentrieren sich auf einen einzigen Bereich, wie z.B. Code-Retrieval, was sie für die Bewertung von Allzweckmodellen ungeeignet macht.

    Der Retrieval Embedding Benchmark (RTEB)

    Der neu eingeführte Retrieval Embedding Benchmark (RTEB) verfolgt das Ziel, einen neuen, zuverlässigen und hochwertigen Benchmark zu etablieren, der die tatsächliche Retrieval-Genauigkeit von Embedding-Modellen misst.

    Eine hybride Strategie für echte Generalisierung

    Um der Überanpassung an Benchmarks entgegenzuwirken, setzt RTEB eine hybride Strategie ein, die sowohl offene als auch private Datensätze nutzt:

    • Offene Datensätze: Korpus, Anfragen und Relevanz-Labels sind vollständig öffentlich zugänglich. Dies gewährleistet Transparenz und ermöglicht die Reproduktion der Ergebnisse durch jeden Nutzer.
    • Private Datensätze: Diese Datensätze werden privat gehalten, und die Bewertung erfolgt durch die MTEB-Betreuer, um Unparteilichkeit zu gewährleisten. Diese Konfiguration ermöglicht eine klare, unvoreingenommene Messung der Generalisierungsfähigkeit eines Modells auf ungesehene Daten. Zur Transparenz werden deskriptive Statistiken, eine Datensatzbeschreibung und Beispiel-Tripel (Anfrage, Dokument, Relevanz) für jeden privaten Datensatz bereitgestellt.

    Dieser hybride Ansatz fördert die Entwicklung von Modellen mit einer breiten und robusten Generalisierungsfähigkeit. Ein signifikanter Leistungsabfall eines Modells zwischen den offenen und den privaten Datensätzen würde auf Überanpassung hindeuten und ein klares Signal an die Community senden. Dies zeigt sich bereits bei einigen Modellen, die auf den privaten Datensätzen von RTEB einen merklichen Leistungsrückgang aufweisen.

    Entwickelt für reale Domänen

    RTEB ist speziell auf Anwendungsfälle in Unternehmen zugeschnitten. Anstelle einer komplexen Hierarchie werden einfache Gruppen zur besseren Übersichtlichkeit verwendet. Ein einzelner Datensatz kann dabei mehreren Gruppen angehören (z.B. ein deutscher Rechtsdatensatz gehört sowohl zur Gruppe "Recht" als auch "Deutsch").

    • Mehrsprachigkeit: Die Benchmark-Datensätze decken 20 Sprachen ab, von gängigen Sprachen wie Englisch oder Japanisch bis hin zu selteneren Sprachen wie Bengalisch oder Finnisch.
    • Domänenspezifischer Fokus: Der Benchmark umfasst Datensätze aus kritischen Unternehmensdomänen wie Recht, Gesundheitswesen, Code und Finanzen.
    • Effiziente Datensatzgrößen: Die Datensätze sind groß genug, um aussagekräftig zu sein (mindestens 1.000 Dokumente und 50 Anfragen), ohne jedoch so umfangreich zu sein, dass die Bewertung zeitaufwendig und kostspielig wird.
    • Retrieval-orientierte Metrik: Die Standardmetrik für die Bestenliste ist NDCG@10, ein Goldstandard zur Messung der Qualität von gerankten Suchergebnissen.

    Eine vollständige Liste der Datensätze ist unten aufgeführt. Es ist geplant, sowohl den offenen als auch den geschlossenen Teil kontinuierlich mit verschiedenen Kategorien von Datensätzen zu aktualisieren. Die Community wird aktiv zur Beteiligung ermutigt; Vorschläge für weitere Datensätze können im MTEB-Repository auf GitHub eingereicht werden.

    Offene RTEB-Datensätze (Auszug)

    • AILACasedocs (Englisch, Recht): ca. 3.000 Gerichtsdokumente des Obersten Gerichtshofs Indiens zur Bewertung der Retrieval-Relevanz für rechtliche Situationen.
    • LegalQuAD (Deutsch, Recht): 200 reale Rechtsdokumente und 200 juristische Fragen.
    • FinanceBench (Englisch, Finanzen): Abgeleitet aus dem PatronusAI/financebench-test Datensatz für QA-Aufgaben im Finanzbereich.
    • HumanEval (Code): 164 Programmierprobleme mit handschriftlichen Funktionssignaturen, Docstrings und Unit-Tests.
    • HC3 Medicine (Englisch, Gesundheitswesen): Zehntausende Vergleichsantworten von menschlichen Experten und ChatGPT aus verschiedenen Domänen, inklusive Medizin.
    • JaQuAD (Japanisch): 39.696 manuell annotierte Frage-Antwort-Paare basierend auf japanischen Wikipedia-Artikeln.

    Geschlossene RTEB-Datensätze (Auszug)

    • _GermanLegal1 (Deutsch, Recht): Abgeleitet aus realen Gerichtsentscheidungen, mit einer Kombination aus juristischer Zitationsabgleichung und BM25-Ähnlichkeit.
    • _JapaneseLegal1 (Japanisch, Recht): 8.750 deduplizierte Gesetzesaufzeichnungen der japanischen Regierungswebsite e-Gov.
    • _EnglishFinance1 (Englisch, Finanzen): Für Retrieval umfunktioniert aus TAT-QA, einem großen QA-Datensatz mit tabellarischem und textuellem Inhalt.
    • _Code1 (Code): Extrahierte Funktionen aus GitHub-Repositories; Docstrings werden als Anfragen verwendet.
    • _GermanHealthcare1 (Deutsch, Gesundheitswesen): 465 deutschsprachige medizinische Dialoge zwischen Patienten und Gesundheitsassistenten.

    RTEB: Ein Gemeinschaftsprojekt

    RTEB wird heute in einer Beta-Version veröffentlicht. Die Entwicklung eines robusten Benchmarks wird als Gemeinschaftsleistung verstanden. RTEB soll basierend auf dem Feedback von Entwicklern und Forschern weiterentwickelt werden. Die Community wird ermutigt, ihre Gedanken zu teilen, neue Datensätze vorzuschlagen, Probleme in bestehenden Datensätzen zu identifizieren und zur Schaffung eines zuverlässigeren Standards beizutragen. Diskussionen und Problemreports können im MTEB-Repository auf GitHub eingereicht werden.

    Einschränkungen und zukünftige Entwicklungen

    Um Transparenz zu gewährleisten, werden die aktuellen Einschränkungen von RTEB und die Pläne für die Zukunft offen dargelegt:

    • Benchmark-Umfang: RTEB konzentriert sich auf realistische, Retrieval-zentrierte Anwendungsfälle. Hochanspruchsvolle synthetische Datensätze sind derzeit kein primäres Ziel, könnten aber in zukünftigen Versionen hinzugefügt werden.
    • Modalität: Der Benchmark bewertet derzeit ausschließlich textbasiertes Retrieval. Es ist geplant, in zukünftigen Veröffentlichungen auch Text-Bild- und andere multimodale Retrieval-Aufgaben zu integrieren.
    • Sprachabdeckung: Es wird aktiv daran gearbeitet, die Sprachabdeckung zu erweitern, insbesondere für wichtige Sprachen wie Chinesisch und Arabisch, sowie für Sprachen mit geringeren Ressourcen. Qualitätvolle Datensätze, die diesen Kriterien entsprechen, sind willkommen.
    • Wiederverwendung von QA-Datensätzen: Etwa 50 % der aktuellen Retrieval-Datensätze wurden aus QA-Datensätzen umfunktioniert. Dies könnte zu Problemen führen, wie einer starken lexikalischen Überlappung zwischen Frage und Kontext, was Modelle begünstigen könnte, die auf Stichwortabgleich statt auf echtes semantisches Verständnis setzen.
    • Private Datensätze: Zur Überprüfung der Generalisierungsfähigkeit werden private Datensätze verwendet, die nur den MTEB-Betreuern zugänglich sind. Um Fairness zu gewährleisten, verpflichten sich alle Betreuer, keine auf diesen Datensätzen trainierten Modelle zu veröffentlichen und Tests auf diesen privaten Datensätzen ausschließlich über öffentliche Kanäle durchzuführen. Dies soll sicherstellen, dass kein Unternehmen oder Individuum unfaire Vorteile erhält.

    Das Ziel ist es, dass RTEB zu einem von der Community anerkannten Standard für die Retrieval-Bewertung wird.

    Die RTEB-Bestenliste ist ab sofort auf Hugging Face als Teil des neuen Retrieval-Bereichs der MTEB-Bestenliste verfügbar. Es wird eingeladen, diese zu prüfen, die eigenen Modelle zu bewerten und sich am Aufbau eines besseren, zuverlässigeren Benchmarks für die gesamte KI-Community zu beteiligen.

    Bibliographie

    • Hugging Face Blog. (2025, October 1). Introducing RTEB: A New Standard for Retrieval Evaluation. Abgerufen von https://huggingface.co/blog/rteb
    • Aarsen, T. (2025, October 1). A New Standard for Retrieval Evaluation. LinkedIn. Abgerufen von https://www.linkedin.com/posts/tomaarsen_introducing-rteb-a-new-standard-for-retrieval-activity-7379179276203352064-3E4u
    • daily.dev. (2025, October 1). Introducing RTEB: A New Standard for Retrieval Evaluation. Abgerufen von https://app.daily.dev/posts/introducing-rteb-a-new-standard-for-retrieval-evaluation-eecl8fl2j
    • Adnan, A. (2025, August 14). Mastering Retrieval and Answer Quality Evaluation. dev.to. Abgerufen von https://dev.to/abdelrahman_adnan/mastering-retrieval-and-answer-quality-evaluation-28p9
    • Maven. (2025, July 1). Modern Information Retrieval Evaluation In The RAG Era. Abgerufen von https://maven.com/p/fae749/modern-ir-evaluation-in-the-generative-rag-era
    • RidgeRun.ai. (2024, November 14). How to Evaluate Retrieval Augmented Generation (RAG) Systems. Medium. Abgerufen von https://ridgerunai.medium.com/how-to-evaluate-retrieval-augmented-generation-rag-systems-16ff8185d38f
    • Pinecone. (2025, July 15). Evaluation Measures in Information Retrieval. Abgerufen von https://www.pinecone.io/learn/offline-evaluation/
    • Schifferer, B. (2024, February 23). Evaluating Retriever for Enterprise-Grade RAG. NVIDIA Technical Blog. Abgerufen von https://developer.nvidia.com/blog/evaluating-retriever-for-enterprise-grade-rag/

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen