Innovative Ansätze in der Spracherkennung: IBMs NLE-System zur Transkriptbearbeitung

Kategorien:

No items found.

Freigegeben:

March 16, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

IBM hat NLE (Non-autoregressive LLM-based ASR by Transcript Editing) vorgestellt, ein nicht-autoregressives ASR-System, das Spracherkennung als Bearbeitung von Transkripten formuliert.
NLE ermöglicht eine vollständig parallele Vorhersage und erreicht im Einzelsprech-Szenario eine 27-fache Beschleunigung gegenüber autoregressiven Baselines.
Das System nutzt einen vortrainierten CTC-Sprach-Encoder zur Erzeugung akustischer Einbettungen und einer initialen Hypothese, die dann von einem bidirektionalen LLM-Editor verfeinert wird.
Ein wesentliches Merkmal ist die Strategie der verschachtelten Auffüllung mit expliziten Einfügeslots, die lokale Einfügungen ohne Verschiebung der gesamten Sequenz ermöglicht.
NLE++ erreicht auf dem Open ASR Leaderboard eine durchschnittliche Fehlerrate von 5,67 % (WER) und einen RTFx von 1630, was eine hohe Genauigkeit bei überlegener Inferenzgeschwindigkeit darstellt.
Das System ist multilingual und unterstützt Englisch, Spanisch, Französisch, Deutsch und Portugiesisch.

Revolution in der Spracherkennung: IBM stellt NLE vor – Nicht-autoregressives ASR mit LLM-basierter Transkriptbearbeitung

Die automatische Spracherkennung (ASR) ist ein Eckpfeiler vieler moderner KI-Anwendungen, von Sprachassistenten bis hin zu Transkriptionsdiensten. Traditionell basieren viele hochpräzise ASR-Systeme auf autoregressiven Modellen, insbesondere solchen, die Large Language Models (LLMs) nutzen. Diese Ansätze liefern zwar beeindruckende Genauigkeit, sind jedoch oft durch ihre sequentielle Decodierung in Bezug auf Parallelität und Latenz eingeschränkt. IBM Research hat nun eine innovative Lösung vorgestellt: NLE (Non-autoregressive LLM-based ASR by Transcript Editing), ein nicht-autoregressives ASR-System, das die Spracherkennung als eine Aufgabe der konditionalen Transkriptbearbeitung neu definiert. Dieser Ansatz verspricht signifikante Geschwindigkeitsvorteile bei gleichbleibend hoher Genauigkeit.

Die Herausforderung autoregressiver ASR-Systeme

Autoregressive (AR) LLM-basierte ASR-Systeme erzielen in der Regel eine hohe Genauigkeit, indem sie Text Token für Token generieren. Diese sequentielle Natur der Decodierung begrenzt jedoch die Parallelität und führt zu erheblichen End-to-End-Latenzen. Dies ist insbesondere in Echtzeit-Konversationsszenarien, in denen eine Batch-Verarbeitung nicht immer praktikabel ist, ein kritischer Engpass. Darüber hinaus verwerfen diese Systeme oft die initiale Hypothese, die vom Sprach-Encoder erzeugt wird, obwohl diese einen brauchbaren Entwurf darstellen könnte, der lediglich verfeinert werden müsste, anstatt von Grund auf neu generiert zu werden. Das NLE-Projekt von IBM zielt darauf ab, diese Einschränkungen zu überwinden und eine parallelisierbare, LLM-basierte Inferenz zu ermöglichen.

NLE: Ein Paradigmenwechsel durch Transkriptbearbeitung

NLE formuliert die Spracherkennung als eine Aufgabe der konditionalen Transkriptbearbeitung. Anstatt Token autoregressiv zu decodieren, bearbeitet NLE eine initiale Hypothese, die von einem vortrainierten Sprach-Encoder extrahiert wurde. Dieser Bearbeitungsprozess wird durch den akustischen Kontext desselben Encoders geleitet. Dies ermöglicht eine vollständig parallele Vorhersage und somit eine deutlich schnellere Inferenz.

Architektur und Methodik von NLE

Die NLE-Architektur integriert mehrere Schlüsselkomponenten:

Vortrainierter CTC-Sprach-Encoder: Dieser Encoder ist während des Trainings eingefroren und erzeugt akustische Einbettungen sowie eine initiale CTC-Transkript-Hypothese. Die Qualität dieser Hypothese ist entscheidend, da sie den Ausgangspunkt für den Bearbeitungsprozess bildet.
Bidirektionaler LLM-Editor: Ein vortrainiertes kausales LLM wird für die Bearbeitungsaufgabe angepasst. Der Aufmerksamkeitsmechanismus des LLM wird von kausal auf bidirektional umgestellt, wodurch jede Position auf alle anderen Positionen achten kann. Dies ist für eine effektive Bearbeitung unerlässlich, da Korrekturen oft Informationen aus vergangenen und zukünftigen Token erfordern. Die Anpassung erfolgt effizient mittels LoRA-Adaptern (Low-Rank Adaptation).
Interleaved Insertion Slots: Um Einfügungen effizient zu handhaben, wird die initiale Hypothese in eine Sequenz mit expliziten Einfügeslots umgewandelt. Diese verschachtelte Darstellung schafft Einfügeslots zwischen jedem Token und nach dem letzten Token, was lokale Einfügungen ermöglicht, ohne die gesamte nachfolgende Sequenz verschieben zu müssen.
CTC-basierte Bearbeitungs-Objektivfunktion: Der LLM-Editor verwendet eine Standard-CTC-Verlustfunktion, die über alle gültigen Ausrichtungen zwischen den vorhergesagten Logits und dem Referenztranskript marginalisiert. Dies ermöglicht dem Modell, zu lernen, welche Positionen beibehalten, gelöscht oder für Einfügungen verwendet werden sollen.
Kopier-Regularisierung (Copying Regularization): Eine zusätzliche Verlustfunktion fördert die Beibehaltung korrekter Token aus der initialen Hypothese, indem sie den Identity Mapping Bias von Transformern verstärkt. Dies erlaubt dem Modell, sich auf Korrekturen zu konzentrieren, anstatt das gesamte Transkript neu zu rekonstruieren.

Leistung und Effizienz

Die Ergebnisse von NLE sind laut IBM vielversprechend:

Geschwindigkeitsvorteil: Im Einzelsprech-Szenario erreicht NLE eine 27-fache Beschleunigung gegenüber der autoregressiven Baseline. In Batch-Szenarien (Batch-Größe 96) beträgt die Beschleunigung immer noch das 4-fache.
Genauigkeit: Auf dem Open ASR Leaderboard erzielt NLE++ (eine verbesserte Variante) eine durchschnittliche Fehlerrate (WER) von 5,67 % und einen RTFx (inverse Real-Time Factor) von 1630. Beide NLE-Varianten liegen an der Pareto-Grenze, was bedeutet, dass sie eine überlegene Balance zwischen Genauigkeit und Geschwindigkeit bieten.
Multilingualität: NLE ist das einzige Modell an der Pareto-Grenze des Open ASR Leaderboards, das multilingual ist und Englisch, Spanisch, Französisch, Deutsch und Portugiesisch unterstützt.

Ablationsstudie und Fehleranalyse

Eine detaillierte Ablationsstudie bestätigte die Wirksamkeit der einzelnen Designentscheidungen von NLE, darunter die bidirektionale Aufmerksamkeit, die verschachtelte Auffüllung und die akustische Konditionierung. Die Fehleranalyse zeigte, dass autoregressive Modelle tendenziell höhere Einfügungsraten aufweisen (was auf Halluzinationen bei schwachen akustischen Beweisen hindeuten kann), während NLE eine konservativere Bearbeitungsstrategie verfolgt, die Löschungen gegenüber Einfügungen bevorzugt. Die Qualität der initialen CTC-Hypothese spielt eine entscheidende Rolle für die Leistung von NLE.

Einschränkungen und zukünftige Entwicklungen

Trotz der beeindruckenden Ergebnisse weist NLE auch Einschränkungen auf. Es ist weniger flexibel bei Aufgaben, deren Ausgabe stark von der initialen Hypothese abweicht, wie zum Beispiel bei gesprochenen Frage-Antwort-Systemen. Zudem kann die Verwendung unterschiedlicher Tokenizer für den CTC-Encoder und das LLM zu einem geringfügigen Latenz-Overhead führen.

Zukünftige Forschungsarbeiten könnten sich auf folgende Bereiche konzentrieren:

Text-Augmentierungsstrategien: Um die Diskrepanz in der Verteilung bei mehrstufiger Bearbeitung zu adressieren und die iterative Verfeinerung zu verbessern.
Kombination mit Mask-Predict-Strategien: Eine hybride Herangehensweise könnte die Effizienz der Ein-Pass-Bearbeitung mit der Verfeinerungsfähigkeit von Mask-Predict-Methoden verbinden.
Restrukturierung der LLM-Architektur: Um Audio und Text in separaten Schichten mit Cross-Attention zwischen den Modalitäten zu verarbeiten, was die Rechenkomplexität bei langen Audioaufnahmen reduzieren könnte.
Nutzung des LLM als Sprachmodell für CTC-Beam-Decodierung: Um stärkere linguistische Vorkenntnisse während der initialen Hypothesengenerierung zu integrieren.
Joint Fine-Tuning: Eine gemeinsame Feinabstimmung von Encoder und Editor für eine End-to-End-Optimierung.
Streaming-Szenarien: Erweiterung des Ansatzes auf Streaming-Anwendungen durch Mechanismen, die partielle Hypothesen und unvollständigen akustischen Kontext verarbeiten können.

Fazit für die B2B-Zielgruppe

Die Einführung von NLE durch IBM stellt einen bedeutenden Fortschritt in der automatischen Spracherkennung dar. Für Unternehmen, die auf ASR-Technologien angewiesen sind, bedeutet dies die Aussicht auf:

Deutlich reduzierte Latenzzeiten: Besonders kritisch für Echtzeit-Anwendungen wie Callcenter-Automatisierung, Live-Untertitelung und Sprachassistenten.
Verbesserte Effizienz: Die parallele Verarbeitung reduziert den Rechenaufwand pro Transkription, was zu Kosteneinsparungen führen kann.
Hohe Genauigkeit: NLE bietet eine mit autoregressiven Systemen vergleichbare Fehlerrate, wodurch die Qualität der Transkriptionen auf einem hohen Niveau bleibt.
Multilinguale Unterstützung: Die Fähigkeit, mehrere Sprachen zu verarbeiten, eröffnet neue Möglichkeiten für global agierende Unternehmen.

Diese Entwicklungen zeigen, dass die Forschung im Bereich der KI weiterhin bestrebt ist, die Grenzen der Effizienz und Leistung zu verschieben. Für Mindverse, das sich als KI-Partner versteht, ist es von größter Bedeutung, solche Innovationen genau zu verfolgen und deren Potenziale für die Geschäftswelt zu analysieren.

Bibliographie

Dekel, A., Thomas, S., Fukada, T., Saon, G. (2026). NLE: Non-autoregressive LLM-based ASR by Transcript Editing. arXiv preprint arXiv:2603.08397.
Chi, E. A., Salazar, J., & Kirchhoff, K. (2021). Align-Refine: Non-Autoregressive Speech Recognition via Iterative Realignment. Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 1920-1927.
IBM Research. Semi-Autoregressive Streaming ASR With Label Context for ICASSP 2024. research.ibm.com/publications/semi-autoregressive-streaming-asr-with-label-context.
Xu, H., Bartley, T. M., Bataev, V., Ginsburg, B. (2024). HAINAN: Fast and Accurate Transducer for Hybrid-Autoregressive ASR. arXiv preprint arXiv:2410.02597.
Saon, G., Thomas, S., Fukada, T., Nagano, T., Dekel, A., Lastras, L. (2026). Self-Speculative Decoding for LLM-based ASR with CTC Encoder Drafts. arXiv preprint arXiv:2603.11243.