Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Leistungsfähigkeit zahlreicher KI-Anwendungen, von RAG-Systemen (Retrieval-Augmented Generation) über intelligente Agenten bis hin zu Empfehlungssystemen, hängt maßgeblich von der Qualität der zugrunde liegenden Such- und Retrieval-Mechanismen ab. Für Entwickler stellt die präzise Messung der Retrieval-Qualität von Embedding-Modellen daher einen zentralen Herausforderungspunkt dar. Es geht um die Frage, wie man die tatsächliche Leistung eines Modells in realen Einsatzszenarien zuverlässig beurteilen kann.
Die bisherigen Bewertungsstandards basieren oft auf der "Zero-Shot"-Leistung von Modellen auf öffentlichen Benchmarks. Diese Methode stellt jedoch bestenfalls eine Annäherung an die wahre Generalisierungsfähigkeit eines Modells dar. Wenn Modelle wiederholt an denselben öffentlichen Datensätzen evaluiert werden, kann eine Diskrepanz zwischen den gemeldeten Ergebnissen und der tatsächlichen Leistung auf neuen, ungesehenen Daten entstehen. Um diese Problematik anzugehen, wurde der Retrieval Embedding Benchmark (RTEB) entwickelt, ein neuer Standard, der eine zuverlässigere Bewertung von Retrieval-Modellen ermöglichen soll.
Obwohl die zugrunde liegenden Bewertungsmethoden und Metriken, wie beispielsweise NDCG@10, etabliert und robust sind, sehen sich bestehende Benchmarks mit mehreren Herausforderungen konfrontiert, die ihre Integrität beeinträchtigen können:
Das aktuelle Benchmark-Ökosystem kann unbeabsichtigt dazu führen, dass Modelle auf die spezifischen Testdaten hin optimiert werden ("teaching to the test"). Wenn Trainingsdatenquellen mit Bewertungsdatensätzen überlappen, können die Ergebnisse eines Modells überhöht erscheinen, was die Aussagekraft des Benchmarks mindert. Diese Praxis, ob beabsichtigt oder nicht, ist in den Trainingsdatensätzen einiger Modelle erkennbar. Dies führt zu einem Rückkopplungsmechanismus, bei dem Modelle für das Auswendiglernen von Testdaten belohnt werden, anstatt robuste, generalisierbare Fähigkeiten zu entwickeln. Infolgedessen können Modelle mit einem niedrigeren Zero-Shot-Score in Benchmarks sehr gut abschneiden, ohne jedoch auf neue Probleme zu generalisieren. Daher werden oft Modelle mit einer etwas geringeren Benchmark-Leistung, aber einem höheren Zero-Shot-Score empfohlen.
Viele Benchmarks sind unzureichend auf die aktuellen Anwendungsfälle in Unternehmen ausgerichtet. Sie stützen sich oft auf akademische Datensätze oder Retrieval-Aufgaben, die aus QA-Datensätzen (Question-Answering) abgeleitet wurden. Obwohl diese Datensätze in ihrem ursprünglichen Kontext nützlich sind, wurden sie nicht speziell für die Bewertung von Retrieval-Systemen konzipiert und können die Verteilungsungleichgewichte und Komplexitäten realer Retrieval-Szenarien nicht vollständig erfassen. Benchmarks, die diese Probleme nicht aufweisen, sind häufig zu eng gefasst und konzentrieren sich auf einen einzigen Bereich, wie z.B. Code-Retrieval, was sie für die Bewertung von Allzweckmodellen ungeeignet macht.
Der neu eingeführte Retrieval Embedding Benchmark (RTEB) verfolgt das Ziel, einen neuen, zuverlässigen und hochwertigen Benchmark zu etablieren, der die tatsächliche Retrieval-Genauigkeit von Embedding-Modellen misst.
Um der Überanpassung an Benchmarks entgegenzuwirken, setzt RTEB eine hybride Strategie ein, die sowohl offene als auch private Datensätze nutzt:
Dieser hybride Ansatz fördert die Entwicklung von Modellen mit einer breiten und robusten Generalisierungsfähigkeit. Ein signifikanter Leistungsabfall eines Modells zwischen den offenen und den privaten Datensätzen würde auf Überanpassung hindeuten und ein klares Signal an die Community senden. Dies zeigt sich bereits bei einigen Modellen, die auf den privaten Datensätzen von RTEB einen merklichen Leistungsrückgang aufweisen.
RTEB ist speziell auf Anwendungsfälle in Unternehmen zugeschnitten. Anstelle einer komplexen Hierarchie werden einfache Gruppen zur besseren Übersichtlichkeit verwendet. Ein einzelner Datensatz kann dabei mehreren Gruppen angehören (z.B. ein deutscher Rechtsdatensatz gehört sowohl zur Gruppe "Recht" als auch "Deutsch").
Eine vollständige Liste der Datensätze ist unten aufgeführt. Es ist geplant, sowohl den offenen als auch den geschlossenen Teil kontinuierlich mit verschiedenen Kategorien von Datensätzen zu aktualisieren. Die Community wird aktiv zur Beteiligung ermutigt; Vorschläge für weitere Datensätze können im MTEB-Repository auf GitHub eingereicht werden.
RTEB wird heute in einer Beta-Version veröffentlicht. Die Entwicklung eines robusten Benchmarks wird als Gemeinschaftsleistung verstanden. RTEB soll basierend auf dem Feedback von Entwicklern und Forschern weiterentwickelt werden. Die Community wird ermutigt, ihre Gedanken zu teilen, neue Datensätze vorzuschlagen, Probleme in bestehenden Datensätzen zu identifizieren und zur Schaffung eines zuverlässigeren Standards beizutragen. Diskussionen und Problemreports können im MTEB-Repository auf GitHub eingereicht werden.
Um Transparenz zu gewährleisten, werden die aktuellen Einschränkungen von RTEB und die Pläne für die Zukunft offen dargelegt:
Das Ziel ist es, dass RTEB zu einem von der Community anerkannten Standard für die Retrieval-Bewertung wird.
Die RTEB-Bestenliste ist ab sofort auf Hugging Face als Teil des neuen Retrieval-Bereichs der MTEB-Bestenliste verfügbar. Es wird eingeladen, diese zu prüfen, die eigenen Modelle zu bewerten und sich am Aufbau eines besseren, zuverlässigeren Benchmarks für die gesamte KI-Community zu beteiligen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen