Spracherkennung im Fokus: Neue Benchmarks zeigen Fortschritte von ElevenLabs und Google

Kategorien:

No items found.

Freigegeben:

March 2, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

ElevenLabs und Google führen die aktualisierten Spracherkennungs-Benchmarks von Artificial Analysis an.
ElevenLabs' Scribe v2 erreicht mit einer Wortfehlerrate (WER) von 2,3 % den Spitzenplatz im AA-WER v2.0 Benchmark.
Googles Gemini 3 Pro folgt dicht dahinter mit 2,9 % WER, gefolgt von Mistrals Voxtral Small mit 3,0 %.
Im spezifischen AA-AgentTalk-Test für Sprachassistenten zeigen Scribe v2 (1,6 %) und Gemini 3 Pro (1,7 %) ebenfalls führende Ergebnisse.
Googles starke Leistung wird auf die multimodalen Fähigkeiten von Gemini zurückgeführt, auch wenn es nicht primär für Transkription trainiert wurde.
OpenAIs Whisper Large v3 liegt mit 4,2 % WER im Mittelfeld.

Führende Positionen im Bereich Spracherkennung: ElevenLabs und Google setzen neue Standards

Die Landschaft der automatischen Spracherkennung (ASR) erfährt eine kontinuierliche Weiterentwicklung, angetrieben durch rasante Fortschritte in der Künstlichen Intelligenz. Aktuelle Analysen von Artificial Analysis, insbesondere der kürzlich aktualisierte AA-WER v2.0 Benchmark, beleuchten die führenden Akteure in diesem dynamischen Feld. Dabei zeichnen sich zwei Namen besonders ab: ElevenLabs und Google, die mit ihren neuesten Modellen die Spitzenpositionen belegen.

Der AA-WER v2.0 Benchmark: Ein genauer Blick auf die Ergebnisse

Artificial Analysis hat mit der Veröffentlichung der Version 2.0 ihres AA-WER (Word Error Rate) Benchmarks eine umfassende Bewertung der Genauigkeit von Speech-to-Text (STT)-Modellen vorgelegt. Diese Benchmark ist ein entscheidendes Instrument für Unternehmen und Entwickler, um die Leistungsfähigkeit verschiedener ASR-Lösungen objektiv zu vergleichen und fundierte Entscheidungen zu treffen.

ElevenLabs' Scribe v2 an der Spitze

Im Gesamtranking des AA-WER v2.0 erzielt ElevenLabs' Scribe v2 die höchste Genauigkeit mit einer beeindruckend niedrigen Wortfehlerrate von lediglich 2,3 Prozent. Dies positioniert Scribe v2 als das derzeit präziseste Modell, das in dieser umfassenden Bewertung getestet wurde. ElevenLabs, ursprünglich bekannt für seine Text-to-Speech-Technologien, demonstriert mit Scribe v2 eine signifikante Erweiterung seiner Kompetenzen in den Bereich der Spracherkennung.

Googles Gemini 3 Pro und Mistrals Voxtral Small folgen

Dicht auf den Fersen von ElevenLabs folgt Googles Gemini 3 Pro mit einer Wortfehlerrate von 2,9 Prozent. Bemerkenswert ist hierbei, dass Google Gemini nicht explizit für Transkription trainiert wurde. Die starken Ergebnisse werden auf die allgemeinen multimodalen Fähigkeiten von Gemini zurückgeführt, die eine vielseitige Anwendung über verschiedene KI-Bereiche hinweg ermöglichen. An dritter Stelle positioniert sich Mistrals Voxtral Small mit einer WER von 3,0 Prozent.

Weitere Modelle im oberen Bereich des Rankings sind Googles Gemini 3 Flash (3,1 %) und ElevenLabs' ältere Version Scribe v1 (3,2 %). Diese Ergebnisse unterstreichen die hohe Wettbewerbsintensität und die kontinuierlichen Innovationszyklen im Bereich der Spracherkennungstechnologien.

OpenAI und weitere Anbieter im Mittelfeld

OpenAIs populäres Open-Source-Modell Whisper Large v3 findet sich mit einer Wortfehlerrate von 4,2 Prozent im Mittelfeld wieder. Modelle wie Alibabas Qwen3 ASR Flash (5,9 %), Amazons Nova 2 Omni (6,0 %) und Rev AI (6,1 %) bilden das Schlusslicht dieser spezifischen Benchmark-Analyse.

AA-AgentTalk: Spezifische Tests für Sprachassistenten

Neben dem allgemeinen AA-WER v2.0 Benchmark hat Artificial Analysis auch einen spezialisierten Test namens AA-AgentTalk durchgeführt. Dieser Test konzentriert sich auf die Leistung von Spracherkennungsmodellen bei Sprache, die an Sprachassistenten gerichtet ist – ein Anwendungsbereich von wachsender Bedeutung. Auch hier dominieren ElevenLabs und Google:

ElevenLabs' Scribe v2 führt mit einer WER von 1,6 Prozent.
Googles Gemini 3 Pro folgt mit 1,7 Prozent.
AssemblyAIs Universal-3 Pro erreicht mit 2,3 Prozent den dritten Platz.

Diese Ergebnisse zeigen, dass die führenden Modelle nicht nur in der allgemeinen Spracherkennung, sondern auch in spezifischen, anspruchsvollen Anwendungsfällen wie der Interaktion mit Sprachassistenten herausragende Leistungen erbringen.

Bedeutung der Benchmarks für die B2B-Zielgruppe

Für Unternehmen im B2B-Bereich, die auf präzise und effiziente Spracherkennungstechnologien angewiesen sind, bieten diese Benchmarks wertvolle Einblicke. Die Wahl des richtigen STT-Modells kann direkte Auswirkungen auf die Effizienz von Geschäftsprozessen, die Qualität der Kundeninteraktion und die Genauigkeit von Datenanalysen haben. Die geringe Wortfehlerrate der führenden Modelle bedeutet:

Höhere Automatisierungsgrade: Weniger manuelle Nachbearbeitung von Transkripten.
Verbesserte Datenqualität: Präzisere Informationen aus Sprachdaten für Analysen und Entscheidungen.
Optimierte Kundenerfahrung: Effektivere Interaktion mit Sprachassistenten und Chatbots.
Erweiterte Anwendungsmöglichkeiten: Neue Potenziale in Bereichen wie Compliance-Überwachung, Meeting-Protokollierung und multilingualer Kommunikation.

Die Tatsache, dass Google mit einem nicht primär auf Transkription ausgelegten Modell so gut abschneidet, deutet auf die zunehmende Konvergenz von KI-Technologien hin. Multimodale Modelle könnten in Zukunft eine noch größere Rolle spielen, da sie in der Lage sind, komplexe Aufgaben über verschiedene Datenformate hinweg zu bewältigen.

Fazit und Ausblick

Die aktuellen Benchmarks von Artificial Analysis verdeutlichen die dynamische Entwicklung im Bereich der Spracherkennung. ElevenLabs und Google setzen mit ihren innovativen Modellen neue Maßstäbe in puncto Genauigkeit und Effizienz. Für Unternehmen, die auf der Suche nach leistungsstarken Speech-to-Text-Lösungen sind, bieten diese Ergebnisse eine solide Grundlage für strategische Entscheidungen. Die fortlaufende Forschung und Entwicklung in diesem Sektor verspricht weitere Verbesserungen und eine noch breitere Palette an Anwendungsmöglichkeiten in der kommenden Zeit.

Die Fähigkeit, gesprochene Sprache präzise und in Echtzeit in Text umzuwandeln, bleibt eine Schlüsseltechnologie für die digitale Transformation und wird weiterhin eine zentrale Rolle in der Entwicklung intelligenter Systeme und Anwendungen spielen.

Bibliography - Artificial Analysis. (2026, February 18). *AA-WER v2.0: Speech to Text Accuracy Benchmark*. - Bastian, M. (2026, March 1). *ElevenLabs and Google dominate Artificial Analysis' updated speech-to-text benchmark*. THE DECODER - EVERYTHING AI. - Dataconomy. (2025, February 27). *ElevenLabs’ New Speech-to-text Model Claims 97% Accuracy*. - ElevenLabs. (n.d.). *Most Accurate Speech to Text Model*. - Maes, U. (n.d.). *Elevenlabs releases Scribe: the new leading automatic speech recognition model beating OpenAI Whisper V3 and Google Gemini*. Scribewave. - opentools.ai. (2025, February 27). *ElevenLabs' New Scribe v1 Leads the Speech-to-Text Revolution with 96.7% Accuracy!* - VentureBeat. (2025, February 26). *ElevenLabs' new speech-to-text model Scribe is here with highest accuracy rate so far (96.7% for English)*.