Einführung der Ettin Reranker-Familie: Fortschritte in der KI-basierten semantischen Suche

Kategorien:

No items found.

Freigegeben:

May 19, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Die Ettin Reranker-Familie, basierend auf den Ettin Encodern der Johns Hopkins University, umfasst sechs Modelle von 17M bis 1B Parametern.
Diese Modelle sind für ihre jeweilige Größe state-of-the-art und wurden mittels eines Destillationsverfahrens trainiert, wobei sie die Logits des `mxbai-rerank-large-v2` Modells als Referenz nutzten.
Die Reranker zeigen eine verbesserte Leistung im MTEB(eng, v2) Retrieval-Benchmark und im NanoBEIR-Datensatz im Vergleich zu älteren Modellen und übertreffen teilweise sogar ihre größeren Konkurrenten.
Ein wesentlicher Vorteil ist die hohe Geschwindigkeit, insbesondere durch die Nutzung von Flash Attention 2 und unpadded Inputs, was zu deutlichen Durchsatzsteigerungen führt.
Die Modelle und das Trainingsdatenset sind unter der Apache 2.0 Lizenz öffentlich zugänglich, was Transparenz und weitere Forschung ermöglicht.

Die Welt der Künstlichen Intelligenz und insbesondere der großen Sprachmodelle (LLMs) entwickelt sich rasant. Eine aktuelle und bemerkenswerte Entwicklung ist die Einführung der Ettin Reranker-Familie. Diese Familie umfasst sechs neue CrossEncoder Reranker, die auf den Ettin Encodern der Johns Hopkins University basieren und für ihre jeweilige Größe als State-of-the-Art gelten. Sie sind das Ergebnis eines sorgfältigen Destillationsverfahrens und bieten eine verbesserte Leistung und Effizienz für Aufgaben wie die semantische Suche und das Dokumenten-Ranking.

Die Ettin Reranker-Familie: Ein Überblick

Die Ettin Reranker-Familie besteht aus sechs Modellen unterschiedlicher Größe, die jeweils auf einem Ettin Encoder aufbauen:

cross-encoder/ettin-reranker-17m-v1
cross-encoder/ettin-reranker-32m-v1
cross-encoder/ettin-reranker-68m-v1
cross-encoder/ettin-reranker-150m-v1
cross-encoder/ettin-reranker-400m-v1
cross-encoder/ettin-reranker-1b-v1

Diese Modelle wurden mit einem Destillationsverfahren trainiert, bei dem die Logits des mixedbread-ai/mxbai-rerank-large-v2 Modells als Referenz dienten. Das Trainingsdatenset, cross-encoder/ettin-reranker-v1-data, ist eine Kombination aus dem lightonai/embeddings-pre-training Datensatz und einem neu bewerteten Teil des lightonai/embeddings-fine-tuning Datensatzes.

Was ist ein Reranker und seine Funktion in der KI?

Ein Reranker, auch als pointwise CrossEncoder bekannt, ist ein neuronales Modell, das ein Paar aus einer Abfrage (Query) und einem Dokument (Document) analysiert und einen einzelnen Relevanzwert ausgibt. Im Gegensatz zu reinen Embedding-Modellen, die Abfrage und Dokument separat kodieren und deren Ähnlichkeit aus zwei Embedding-Vektoren berechnen, ermöglichen Reranker eine gemeinsame Betrachtung beider Texte über alle Transformer-Schichten hinweg. Dies führt zu einer höheren Genauigkeit, ist jedoch auch rechenintensiver, da das Modell für jedes (Abfrage, Dokument)-Paar einzeln ausgeführt werden muss.

In der Praxis wird häufig ein Retrieve-then-Rerank-Ansatz verwendet: Ein schnelles Embedding-Modell identifiziert zunächst eine Top-K-Liste von Kandidaten (Retrieval), die dann von einem CrossEncoder detailliert neu geordnet (Reranking) werden. Diese Methode hält die Gesamtkosten im Rahmen, während die finale Rangfolge der Suchergebnisse deutlich präziser wird.

Architektur und technische Details

Alle sechs Ettin Reranker-Modelle teilen eine gemeinsame Architektur und unterscheiden sich lediglich in der Größe ihres Backbones. Dieses Backbone ist ein Ettin Encoder der Johns Hopkins University, der auf ModernBERT-ähnlichen Modellen basiert. Diese Encoder zeichnen sich durch unpadded Attention, RoPE Positional Encodings, GeGLU und ein umfangreiches 2T-Token-Pre-Training aus, das Kontextlängen von bis zu 8192 Tokens unterstützt.

Auf jedem Encoder verwendet der Reranker einen 4-Modul-Klassifikationskopf, der an ModernBertForSequenceClassification angelehnt ist, jedoch aus modularen Sentence Transformers-Komponenten aufgebaut ist. Der zugrunde liegende Transformer ist dabei ein einfaches AutoModel anstatt AutoModelForSequenceClassification. Dies ermöglicht die Verwendung von Sequence Unpadding für variable Längen bei Flash Attention 2, was zu erheblichen Geschwindigkeits- und Speichervorteilen führt.

Die Modelle sind unter der Apache 2.0 Lizenz veröffentlicht, was Transparenz und den Einsatz in verschiedenen Anwendungen fördert.

Leistung der Ettin Reranker

Die Ettin Reranker-Familie wurde umfassend evaluiert, insbesondere im Hinblick auf ihre Leistungsfähigkeit im MTEB(eng, v2) Retrieval-Benchmark und ihre Geschwindigkeit.

MTEB(eng, v2) Retrieval-Ergebnisse

Die Modelle wurden mit sechs verschiedenen Embedding-Modellen kombiniert, um ein breites Spektrum an Geschwindigkeits- und Qualitätsprofilen abzudecken. Die Ergebnisse zeigen, dass die Ettin Reranker in vielen Szenarien eine signifikante Verbesserung gegenüber reinen Retriever-Modellen und etablierten Baselines bieten:

Der kleinste Reranker, ettin-reranker-17m-v1, übertrifft den ms-marco-MiniLM-L12-v2 (33M Parameter) deutlich in der NDCG@10-Metrik, obwohl er nur etwa die Hälfte der Parameter besitzt.
Der ettin-reranker-32m-v1 übertrifft sogar das BAAI/bge-reranker-v2-m3 (568M Parameter), was einen beeindruckenden Parameter-Vorteil von 17x darstellt.
Im mittleren Bereich ist der ettin-reranker-150m-v1 der leistungsstärkste Reranker unter 600M Parametern und übertrifft Modelle wie Qwen/Qwen3-Reranker-0.6B.
Das 1B-Modell der Ettin-Familie kommt dem Teacher-Modell mxbai-rerank-large-v2 (1.54B Parameter) im MTEB-Score sehr nahe, was die Effektivität des Destillationsverfahrens unterstreicht.

Die Qwen/Qwen3-Reranker-4B weist zwar die höchste Leistung auf, ist aber mit 4.02B Parametern erheblich größer. Für die meisten Anwendungsfälle ist das Ettin 1B-Modell mit einem Viertel der Parameter eine praktikablere Wahl.

Geschwindigkeitsanalyse

Die Geschwindigkeit ist ein entscheidender Faktor für Reranker. Die Ettin Reranker wurden auf einer NVIDIA H100 80GB GPU und einer RTX 3090 (24 GB) sowie auf einer CPU (Intel Core i7-13700K) getestet. Die Ergebnisse sind wie folgt:

Auf NVIDIA H100 80GB: Das 17M-Modell ist der schnellste Reranker im Vergleich und erreicht 7517 Paare pro Sekunde. Dies ist fast doppelt so schnell wie ms-marco-MiniLM-L6-v2. Der Geschwindigkeitsvorteil durch bf16 und unpadded Inputs bei Flash Attention 2 ist signifikant und nimmt mit der Modellgröße zu (bis zu 8.26x für das 1B-Modell).
Auf RTX 3090 (24 GB): Auch hier ist das 17M-Modell mit 9008 Paaren pro Sekunde das schnellste. Im mittleren Bereich übertreffen andere MiniLM-Reranker die Ettin-Modelle, aber die 1B-Version behält einen Vorteil gegenüber dem 1.5B Teacher-Modell.
Auf CPU (Intel Core i7-13700K): Auf CPUs, wo Flash Attention 2 und unpadding nicht anwendbar sind, ist die Latenz direkt proportional zur Parameteranzahl. Das 17M-Modell ist hier mit 267.4 Paaren pro Sekunde immer noch deutlich schneller als die MiniLM-Modelle.

Diese Ergebnisse zeigen, dass die Ettin Reranker nicht nur präzise, sondern auch äußerst effizient sind, was sie für den Einsatz in Echtzeitsystemen besonders attraktiv macht.

Trainingsprozess und Daten

Die Ettin Reranker wurden mit einem einstufigen Trainingsverfahren entwickelt. Dabei wurden die Lernrate und die Batch-Größe pro Modellgröße angepasst. Die Feinabstimmung der Lernraten erfolgte durch eine kleine Gittersuche auf einem Teil des Trainingsdatensets. Ein zentrales Element des Trainings war die punktweise MSE-Destillation von einem starken Teacher-Reranker, dem mixedbread-ai/mxbai-rerank-large-v2.

Das Trainingsdatenset, cross-encoder/ettin-reranker-v1-data, umfasst etwa 143 Millionen (Abfrage, Dokument, Score)-Tripel und wurde aus zwei Hauptquellen zusammengestellt:

LightOn Pre-Training Daten: 32 Subsets, die eine breite Palette an Textähnlichkeitssignalen abdecken.
Rescored Retrieval-Daten: 7 Subsets von Retrieval-Daten, die mit dem Teacher-Modell neu bewertet wurden.

Dieser Ansatz adressiert einige der Herausforderungen traditioneller Reranker-Trainingsmethoden, wie die Notwendigkeit menschlich annotierter Daten und das Problem der "False Negatives".

Fazit für Mindverse und die B2B-Zielgruppe

Die Einführung der Ettin Reranker-Familie stellt einen bemerkenswerten Fortschritt in der Entwicklung von Sprachmodellen dar. Für Mindverse als KI-Partner, der sich auf die Bereitstellung klarer und umsetzbarer Erkenntnisse für eine anspruchsvolle B2B-Zielgruppe konzentriert, sind diese Entwicklungen von besonderer Relevanz. Die Ettin Reranker bieten eine überzeugende Kombination aus hoher Präzision und außergewöhnlicher Geschwindigkeit, was sie zu einer idealen Lösung für Unternehmen macht, die ihre Retrieval- und Ranking-Systeme optimieren möchten.

Ihre Leistungsfähigkeit, selbst bei geringer Parameteranzahl, ermöglicht den Einsatz auf vielfältiger Hardware, von leistungsstarken GPUs bis hin zu ressourcenbeschränkten Umgebungen. Die offene Lizenz und die detaillierte Dokumentation des Trainingsprozesses fördern zudem die Anpassbarkeit und Weiterentwicklung, was für B2B-Kunden, die maßgeschneiderte KI-Lösungen suchen, von großem Wert ist.

Die Ettin Reranker-Familie ist somit ein Beispiel für die kontinuierliche Innovation im Bereich der KI, die es ermöglicht, komplexe Nachrichtenlagen in klare, verwertbare Erkenntnisse für anspruchsvolle Geschäftsanwendungen zu übersetzen.

Bibliographie

- Aarsen, T. (2026). Introducing the Ettin Reranker Family. Hugging Face Blog. Verfügbar unter: https://huggingface.co/blog/ettin-reranker - Weller, O., Ricci, K., Marone, M., Chaffin, A., Lawrie, D., & Van Durme, B. (2025). Ettin: Analyzing Encoders vs Decoders Using the Same Architecture and Data. arXiv preprint arXiv:2507.11412. Verfügbar unter: https://arxiv.org/html/2507.11412v1 - JHU-CLSP. (2025). JHU-CLSP/ettin-encoder-vs-decoder. GitHub. Verfügbar unter: https://github.com/jhu-clsp/ettin-encoder-vs-decoder - Hugging Face Blog. (2025). Ettin Suite: SoTA Paired Encoders and Decoders. Verfügbar unter: https://huggingface.co/blog/ettin - LightOn. (2025). Introducing Ettin Suite: the SoTA open recipe to outperform existing Generative & Retrieval Models. Verfügbar unter: https://lighton.ai/lighton-blogs/introducing-ettin-suite-the-sota-open-recipe-to-outperform-existing-generative-retrieval-models - Weller, O., Ricci, K., Marone, M., Chaffin, A., Lawrie, D., & Van Durme, B. (2026). SEQ VS SEQ: AN OPEN SUITE OF PAIRED ENCODERS AND DECODERS. ICLR 2026 Conference Paper. Verfügbar unter: https://arxiv.org/pdf/2507.11412 - Weller, O., Ricci, K., Marone, M., Chaffin, A., Lawrie, D., & Van Durme, B. (2026). SEQ VS SEQ: AN OPEN SUITE OF PAIRED ENCODERS AND DECODERS. ICLR 2026 Conference Paper. Verfügbar unter: https://openreview.net/pdf/144758fce28dd602e89d27d0234793d16d621b35.pdf - Hugging Face Collections. (o. D.). Ettin - a lightonai Collection. Verfügbar unter: http://www.huggingface.co/collections/lightonai/ettin