Erweiterung des Open ASR Leaderboards durch neue private Datensätze zur Verbesserung der Bewertungsqualität

Kategorien:

No items found.

Freigegeben:

May 6, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Das Open ASR Leaderboard hat neue, hochwertige private Datensätze von Appen Inc. und DataoceanAI integriert.
Diese privaten Datensätze sollen der "Benchmaxxing"-Praxis entgegenwirken, bei der Modelle speziell für die Verbesserung der Leaderboard-Platzierung optimiert werden, ohne die reale Robustheit zu steigern.
Die Bewertung auf dem Leaderboard bleibt standardmäßig auf öffentlichen Datensätzen basierend, kann aber optional um private Datensätze erweitert werden.
Die neuen Datensätze umfassen skriptbasierte und konversationelle Sprache in verschiedenen englischen Akzenten.
Ziel ist es, eine vertrauenswürdigere und ganzheitlichere Bewertung der ASR-Modellleistung zu ermöglichen.

Als Senior Specialist Journalist und Analyst für Mindverse ist es unsere Aufgabe, komplexe Entwicklungen im Bereich der Künstlichen Intelligenz präzise und verständlich für unsere B2B-Zielgruppe aufzubereiten. Eine aktuelle und relevante Entwicklung betrifft das Open Automatic Speech Recognition (ASR) Leaderboard, das kürzlich durch die Integration von privaten Datensätzen erweitert wurde. Diese Maßnahme zielt darauf ab, die Qualität und Vertrauenswürdigkeit der Benchmark-Ergebnisse zu erhöhen und dem sogenannten "Benchmaxxing" entgegenzuwirken.

Die Herausforderung des "Benchmaxxing" im ASR-Bereich

Das Open ASR Leaderboard, das seit seiner Einführung im September 2023 über 710.000 Besuche verzeichnete, hat sich als zentrale Plattform für den Vergleich von ASR-Modellen etabliert. Die Ziele des Leaderboards sind die Standardisierung und Offenheit der Bewertungsprozesse. Dazu gehören die Vereinheitlichung von Modell-Outputs und Datensatz-Transkripten durch Normalisierung sowie die Offenlegung des Quellcodes für die Benutzeroberfläche und die Evaluierungsskripte.

Trotz dieser Bemühungen birgt die Offenheit von Benchmarks auch Herausforderungen. Eine davon ist das "Benchmaxxing", eine Praxis, bei der Modelle spezifisch daraufhin optimiert werden, auf veröffentlichten Testdatensätzen gut abzuschneiden. Dies kann zu einer künstlichen Verbesserung der Leaderboard-Platzierung führen, ohne dass sich die tatsächliche Leistung oder Robustheit der Modelle in realen Anwendungsszenarien entsprechend erhöht. Das Goodhart'sche Gesetz, "Wenn ein Maß zu einem Ziel wird, hört es auf, ein gutes Maß zu sein", beschreibt diese Problematik treffend.

Integration neuer, privater Datensätze zur Qualitätssteigerung

Um dieser Entwicklung entgegenzuwirken und eine verlässlichere Bewertung zu gewährleisten, hat das Open ASR Leaderboard in Zusammenarbeit mit Appen Inc. und DataoceanAI neue, hochwertige Datensätze integriert. Diese Datensätze umfassen eine Vielfalt an englischen Sprachproben, sowohl skriptbasierte als auch konversationelle, und decken mehrere Akzente ab. Die Besonderheit dieser Datensätze liegt in ihrem privaten Charakter: Sie werden nicht öffentlich zugänglich gemacht, um die Möglichkeit des "Benchmaxxing" zu minimieren.

Details der neuen Datensätze

Die hinzugefügten Datensätze bieten eine breite Palette an Sprachstilen und Akzenten, was eine differenziertere Bewertung der ASR-Modelle ermöglicht. Hierzu gehören beispielsweise:

Appen Scripted AU/CA/IN/US: Skriptbasierte Sprache mit australischen, kanadischen, indischen und amerikanischen Akzenten.
Appen Conversational IN/US: Konversationelle, spontane Sprache mit indischen und amerikanischen Akzenten.
DataoceanAI Scripted US/GB: Skriptbasierte Sprache mit amerikanischen und britischen Akzenten.
DataoceanAI Conversational US/GB: Konversationelle, spontane Sprache mit amerikanischen und britischen Akzenten.

Diese Datensätze zeichnen sich durch unterschiedliche Dauern und Sprecheranteile aus und enthalten Transkriptionen, die spezifische Merkmale wie Interpunktion, Groß-/Kleinschreibung und Disfluenzen (z. B. Füllwörter) berücksichtigen.

Bewertung und Metriken mit privaten Datensätzen

Die Standardeinstellung des Leaderboards sieht vor, dass der durchschnittliche Wortfehlerrate (WER) weiterhin auf öffentlichen Datensätzen berechnet wird. Nutzer haben jedoch die Möglichkeit, eine Umschaltfunktion zu aktivieren, um die privaten Datensätze in die Bewertung einzubeziehen und deren Einfluss auf die Modellleistung zu analysieren.

Die Berechnungsweise der Metriken für die privaten Datensätze umfasst:

"Average WER": Ein Makro-Durchschnitt der Datenanbieter-Durchschnitte, um eine gleichmäßige Gewichtung zu gewährleisten.
"Avg Scripted": Makro-Durchschnitt aller skriptbasierten Datensätze.
"Avg Conversational": Makro-Durchschnitt aller konversationellen Datensätze.
"Avg US": Makro-Durchschnitt aller Datensätze mit amerikanischem Akzent.
"Avg non-US": Makro-Durchschnitt aller Datensätze mit nicht-amerikanischen Akzenten.

Es wird bewusst darauf verzichtet, Einzelergebnisse für jeden Split anzuzeigen, um zu verhindern, dass Modellentwickler ihre Scores gezielt für spezifische Datenanbieter oder Akzente optimieren.

Prozess zur Modellevaluierung

Für Unternehmen, die ihre ASR-Modelle auf diesen neuen privaten Datensätzen evaluieren möchten, bleibt der Prozess, ein Modell zum Open ASR Leaderboard hinzuzufügen, transparent und community-basiert. Dies erfolgt über das GitHub-Repository des Leaderboards:

Ein Pull Request wird geöffnet, der eine Modell-Checkliste enthält. Die Ergebnisse auf den öffentlichen Datensätzen sind dabei weiterhin anzugeben.
Das Team des Leaderboards verifiziert die Ergebnisse auf den öffentlichen Datensätzen und berechnet die Metriken auf den privaten Datensätzen.
Die erhaltenen Ergebnisse werden vom Einreicher bestätigt.

Diese Vorgehensweise stellt sicher, dass die Evaluierung fair und nachvollziehbar ist, während gleichzeitig die Integrität der privaten Datensätze gewahrt bleibt.

Vorteile und zukünftige Perspektiven

Die Einführung privater Datensätze ist ein strategischer Schritt zur Verbesserung der Vertrauenswürdigkeit des Open ASR Leaderboards. Sie minimiert das Risiko der Testset-Kontamination und des "Benchmaxxing", was zu einer realistischeren Einschätzung der Modellleistung führt. Zudem ermöglichen diese Datensätze die Identifizierung von Lücken und Bias in Modellen, insbesondere zwischen kontrollierten und gesättigten Einstellungen (z.B. skriptbasierte Sprache, amerikanischer Akzent) und nuancierteren Bedingungen (konversationelle Sprache, nicht-amerikanische Akzente).

Die Entwickler des Leaderboards betonen, dass sie offen für weitere Datenanbieter und Evaluierungssets sind, um die Vielfalt und Robustheit der Benchmark noch weiter zu erhöhen. Zukünftige Entwicklungen könnten Evaluierungen unter realen, rauschbehafteten Bedingungen umfassen, um die Anwendbarkeit der Modelle weiter zu testen.

Diese kontinuierlichen Anpassungen und Erweiterungen des Open ASR Leaderboards unterstreichen die Dynamik und die Notwendigkeit einer adaptiven Bewertung im schnelllebigen Feld der Künstlichen Intelligenz. Für B2B-Entscheidungsträger und Fachexperten bietet dies eine immer präzisere Grundlage für die Auswahl und Entwicklung von ASR-Lösungen, die den Anforderungen der realen Welt gerecht werden.

Bibliografie

Bezzam, E., Zheng, S., Le Bihan, E., Bruccoleri, S., Sinanan-Singh, J., Ford, C., Wang, G., Huang, Y., Li, K., Hao, Y., & Xiaoling, L. (2026, May 6). Adding Benchmaxxer Repellant to the Open ASR Leaderboard. Hugging Face Blog.
Srivastav, V., Zheng, S., Bezzam, E., Le Bihan, E., Koluguri, N., Żelasko, P., Majumdar, S., Moumen, A., & Gandhi, S. (2025, October 8). Open ASR Leaderboard: Towards Reproducible and Transparent Multilingual and Long-Form Speech Recognition Evaluation. arXiv.
Hugging Face. (n.d.). Open ASR Leaderboard - a Hugging Face Space by hf-audio. Abgerufen am 14. Mai 2026, von https://huggingface.co/spaces/hf-audio/open_asr_leaderboard
Hugging Face. (n.d.). huggingface/open_asr_leaderboard - GitHub. Abgerufen am 14. Mai 2026, von https://github.com/huggingface/open_asr_leaderboard
Emergent Mind. (n.d.). Open ASR Leaderboard. Abgerufen am 14. Mai 2026, von https://www.emergentmind.com/topics/open-asr-leaderboard