Neuer Ansatz zur automatischen Spracherkennung von IBM Research

Kategorien:

No items found.

Freigegeben:

March 16, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

IBM Research hat NLE (Non-autoregressive LLM-based ASR by Transcript Editing) vorgestellt, einen neuen Ansatz für die automatische Spracherkennung (ASR).
NLE formuliert Spracherkennung als bedingte Transkriptbearbeitung und ermöglicht eine vollständig parallele Vorhersage.
Das System erreicht eine 27-fache Beschleunigung gegenüber autoregressiven Baselines in Einzel-Äußerungs-Szenarien und eine 4-fache Beschleunigung im Batch-Modus.
Trotz der Geschwindigkeitsvorteile erzielt NLE eine vergleichbare Genauigkeit mit einem durchschnittlichen Wortfehlerrate (WER) von 5,67 % auf dem Open ASR Leaderboard.
NLE nutzt einen vorab trainierten CTC-Sprach-Encoder zur Erzeugung akustischer Einbettungen und einer anfänglichen Hypothese, die dann von einem bidirektionalen LLM-Editor verfeinert wird.
Die Methode ist auf fünf Sprachen trainiert (Englisch, Spanisch, Französisch, Deutsch, Portugiesisch) und somit multilingual einsetzbar.

Die automatische Spracherkennung (ASR) ist ein zentraler Bestandteil vieler moderner KI-Anwendungen, von Sprachassistenten bis hin zu Transkriptionsdiensten. Traditionelle ASR-Systeme, insbesondere solche, die auf großen Sprachmodellen (LLMs) basieren, erzielen zwar eine hohe Genauigkeit, leiden jedoch oft unter hohen Latenzzeiten aufgrund ihrer autoregressiven Natur. IBM Research hat nun mit NLE (Non-autoregressive LLM-based ASR by Transcript Editing) einen innovativen Ansatz vorgestellt, der diese Herausforderungen adressiert. NLE formuliert die Spracherkennung als eine bedingte Transkriptbearbeitung, was eine vollständig parallele Vorhersage ermöglicht und erhebliche Geschwindigkeitsvorteile mit sich bringt.

Die Herausforderung der autoregressiven ASR-Systeme

Autoregressive (AR) ASR-Systeme, die auf LLMs basieren, generieren Text Token für Token sequenziell. Obwohl dieser Ansatz zu einer hohen Genauigkeit führt, begrenzt er die Parallelisierung und führt zu erheblichen End-to-End-Latenzen. Dies ist besonders problematisch in Echtzeit-Konversationsszenarien, wo eine Stapelverarbeitung nicht praktikabel ist und die fehlende Möglichkeit zur Parallelisierung der Token-Generierung direkt zu hohen Latenzen pro Äußerung führt. Darüber hinaus verwerfen diese Systeme oft die anfängliche Hypothese, die vom Sprach-Encoder generiert wird, obwohl diese häufig einen brauchbaren Entwurf darstellt, der verfeinert statt neu generiert werden könnte.

NLE: Ein nicht-autoregressiver Ansatz zur Transkriptbearbeitung

NLE geht diese Einschränkungen an, indem es LLM-basierte Spracherkennung als bedingte Transkriptbearbeitung neu definiert. Anstatt Token autoregressiv zu dekodieren, bearbeitet NLE eine Hypothese, die aus einem vorab trainierten Sprach-Encoder extrahiert wird, und wird dabei durch akustischen Kontext desselben Encoders geleitet. Diese Bearbeitungsformulierung ermöglicht eine vollständig parallele Vorhersage und somit eine schnelle Inferenz.

Architektur und Methodik

Die NLE-Architektur integriert mehrere Schlüsselkomponenten:

Vorab trainierter CTC-Encoder: Dieser Encoder verarbeitet die Audioeingabe und erzeugt akustische Einbettungen sowie eine anfängliche Transkriptionshypothese auf Zeichenebene. Der Encoder bleibt während des Trainings eingefroren, um seine gut trainierten akustischen Modellierungsfähigkeiten zu erhalten.
Retokenisierung und verschachtelte Einfüge-Slots: Die anfängliche Hypothese wird mit dem Subwort-Tokenizer des LLM retokenisiert. Anschließend wird eine verschachtelte Sequenz mit expliziten Einfüge-Slots (symbolisiert durch ϵ) erstellt. Diese Slots ermöglichen lokale Einfügungen, ohne dass die gesamte nachfolgende Sequenz verschoben werden muss. Dies ist entscheidend für effiziente Bearbeitungsvorgänge.
Bidirektionaler LLM-Editor: Ein vorab trainiertes kausales LLM wird so modifiziert, dass sein Aufmerksamkeitsmechanismus bidirektional wird. Dies ermöglicht es jedem Token, alle anderen Positionen zu berücksichtigen, was für eine effektive Bearbeitung unerlässlich ist, da Korrekturen oft Informationen aus vergangenen und zukünftigen Token erfordern. Die Anpassung des LLM erfolgt mittels LoRA (Low-Rank Adaptation), was ein effizientes Fine-Tuning ermöglicht und gleichzeitig das vorab trainierte sprachliche Wissen des Modells bewahrt.
CTC-basierte Bearbeitungs-Zielsetzung: Der LLM-Editor gibt Token-Logits aus, auf die der Standard-CTC-Verlust angewendet wird. Dieser Verlust marginalisiert über alle gültigen Ausrichtungen zwischen den vorhergesagten Logits und dem Referenztranskript und ermöglicht es dem Modell, zu lernen, welche Positionen beibehalten, gelöscht oder für Einfügungen verwendet werden sollen.
Kopier-Regularisierungs-Zielsetzung: Eine zusätzliche Hilfs-Regularisierung fördert die Beibehaltung korrekter Token und macht Bearbeitungen besser interpretierbar, indem sie die Tendenz des Modells verstärkt, Eingabetoken zu kopieren.

Geschwindigkeits- und Genauigkeitsmetriken

Die Ergebnisse von NLE sind laut IBM Research vielversprechend:

Geschwindigkeit: NLE erreicht eine 27-fache Beschleunigung gegenüber der AR-Baseline in Einzel-Äußerungs-Szenarien und eine 4-fache Beschleunigung im Batch-Modus. Dies ist besonders relevant für Echtzeitanwendungen.
Genauigkeit: Auf dem Open ASR Leaderboard erzielt NLE++ (eine verbesserte Variante von NLE) eine durchschnittliche Wortfehlerrate (WER) von 5,67 %. NLE selbst erreicht eine WER von 5,79 % und liegt damit im Vergleich zu führenden Modellen auf der Pareto-Frontier, was ein ausgewogenes Verhältnis zwischen Genauigkeit und Geschwindigkeit darstellt.
Multilingualität: NLE unterstützt fünf Sprachen (Englisch, Spanisch, Französisch, Deutsch, Portugiesisch), was es zu einem der wenigen multilingualen Modelle auf der Pareto-Frontier macht.

Ablationsstudie und Fehleranalyse

Eine detaillierte Ablationsstudie zeigte die Bedeutung jeder Designentscheidung für die Gesamtleistung von NLE. Das Entfernen der Kopier-Regularisierung, die Beschränkung auf kausale Aufmerksamkeit oder das Entfernen akustischer Einbettungen führte zu einer Verschlechterung der Validierungsverluste. Die Studie bestätigte, dass die bidirektionale Aufmerksamkeit und die verschachtelte Auffüllungsstrategie entscheidend für die Effektivität von NLE sind.

Die Fehleranalyse offenbarte interessante Unterschiede zwischen den Modellen. Autoregressive Modelle zeigten tendenziell höhere Einfügungsraten, was auf potenzielle Halluzinationen bei schwachen akustischen Beweisen hindeutet. NLE hingegen wies eine höhere Löschrate und niedrigere Einfügungsrate auf, was eine konservativere Bearbeitungsstrategie widerspiegelt, die Löschungen gegenüber Einfügungen bevorzugt.

Grenzen und Zukunftsperspektiven

Trotz der beeindruckenden Ergebnisse hat NLE, wie jedes Modell, auch Grenzen. Es ist weniger flexibel bei Aufgaben, bei denen die Ausgabe erheblich von der Eingabehypothese abweicht, wie beispielsweise bei gesprochener Frage-Antwort-Generierung. Zudem kann der Wechsel zwischen verschiedenen Tokenizern (CTC-Encoder und LLM) zu geringfügigen Latenz-Overheads führen.

Zukünftige Forschungsrichtungen umfassen die Verbesserung der Mehrschritt-Bearbeitung durch Text-Augmentierungsstrategien, die Kombination des Bearbeitungsansatzes mit Mask-Predict-Strategien für eine iterativ verfeinerte Vorhersage und die Umstrukturierung der LLM-Architektur zur getrennten Verarbeitung von Audio und Text in verschiedenen Schichten, um die Rechenkomplexität zu reduzieren.

NLE stellt einen signifikanten Fortschritt in der ASR-Forschung dar, indem es die Geschwindigkeitsvorteile nicht-autoregressiver Modelle mit der linguistischen Expertise großer Sprachmodelle kombiniert. Durch die Formulierung der Spracherkennung als Transkriptbearbeitung eröffnet dieser Ansatz neue Möglichkeiten für Echtzeit-Sprachanwendungen und könnte die Art und Weise, wie wir mit gesprochener Sprache interagieren, nachhaltig beeinflussen.

Bibliography - Dekel, A., Thomas, S., Fukada, T., & Saon, G. (2026). NLE: Non-autoregressive LLM-based ASR by Transcript Editing. arXiv preprint arXiv:2603.08397. - IBM Research. (2025). Semi-Autoregressive Streaming ASR With Label Context for ICASSP 2024. - Dekel, A., Thomas, S., Fukada, T., & Saon, G. (2026). NLE: Non-autoregressive LLM-based ASR by Transcript Editing - Paper Details. ChatPaper.ai. - Dekel, A. (2026). Paper page - NLE: Non-autoregressive LLM-based ASR by Transcript Editing. Hugging Face. - Saon, G., Thomas, S., Fukuda, T., Nagano, T., Dekel, A., & Lastras, L. (2026). Self-Speculative Decoding for LLM-based ASR with CTC Encoder Drafts. arXiv preprint arXiv:2603.11243.