Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Forschung im Bereich der Künstlichen Intelligenz (KI) hat in den letzten Jahren erhebliche Fortschritte gemacht, insbesondere im Feld der automatischen Spracherkennung (ASR). Während viele Systeme bei weit verbreiteten Sprachen nahezu perfekte Ergebnisse erzielen, blieben Tausende von Sprachen, insbesondere solche mit wenigen digitalen Ressourcen, bisher weitgehend unberücksichtigt. Meta hat nun mit der Einführung von Omnilingual ASR eine Entwicklung präsentiert, die darauf abzielt, diese Lücke zu schließen und die Spracherkennung für eine beispiellose Anzahl von Sprachen zugänglich zu machen.
Das von Metas Fundamental AI Research (FAIR) Team entwickelte Omnilingual ASR ist eine Modellsuite, die die Transkription von über 1.600 Sprachen ermöglicht. Bemerkenswert ist dabei, dass 500 dieser Sprachen bisher noch nie von einem KI-System transkribiert wurden. Diese Erweiterung der Sprachabdeckung stellt einen signifikanten Schritt dar, um die digitale Kluft für Sprecher von weniger verbreiteten oder ressourcenarmen Sprachen zu überbrücken.
Die technologische Grundlage bildet eine Weiterentwicklung des wav2vec 2.0 Sprach-Encoders, der auf 7 Milliarden Parameter skaliert wurde. Dieser Encoder erzeugt reichhaltige, massiv mehrsprachige semantische Repräsentationen aus unbearbeiteten Sprachdaten. Ergänzt wird dies durch zwei Decoder-Varianten: einen traditionellen Connectionist Temporal Classification (CTC)-Decoder und einen von Large Language Models (LLMs) inspirierten Transformer-Decoder. Dieser LLM-ASR-Ansatz führt zu einer Leistungssteigerung, insbesondere bei Sprachen, die bisher nur geringe Unterstützung fanden.
Ein zentrales Merkmal von Omnilingual ASR ist die Möglichkeit, die Unterstützung für neue Sprachen zu erweitern. Während herkömmliche Systeme oft umfangreiche, expertenbasierte Feinabstimmungen erfordern, die für viele Gemeinschaften unzugänglich sind, ermöglicht Omnilingual ASR eine Erweiterung der Sprachabdeckung durch sogenannte In-Context Learning-Fähigkeiten. Dies bedeutet, dass Sprecher einer bisher nicht unterstützten Sprache nur wenige Audio-Text-Paare bereitstellen müssen, um eine nutzbare Transkriptionsqualität zu erzielen. Dies reduziert den Bedarf an großen Trainingsdatensätzen, spezialisiertem Fachwissen oder hochleistungsfähiger Recheninfrastruktur erheblich. Obwohl die Zero-Shot-Leistung noch nicht der von vollständig trainierten Systemen entspricht, bietet sie einen skalierbaren Weg zur digitalen Erfassung neuer Sprachen.
Meta stellt eine Reihe von Modellen zur Verfügung, die unterschiedliche Anwendungsfälle abdecken. Von leichtgewichtigen 300-Millionen-Parameter-Versionen, die für Geräte mit geringer Leistung konzipiert sind, bis hin zu den leistungsstarken 7-Milliarden-Parameter-Modellen, die höchste Genauigkeit bieten. Alle Modelle basieren auf dem Open-Source-Framework fairseq2 von FAIR und werden unter einer permissiven Apache 2.0 Lizenz veröffentlicht. Der zugehörige Omnilingual ASR Corpus, eine Sammlung transkribierter Sprachdaten in 350 unterversorgten Sprachen, wird unter der CC-BY Lizenz bereitgestellt.
Die Entwicklung des Omnilingual ASR Corpus erfolgte in Zusammenarbeit mit globalen Partnern, darunter Organisationen wie Mozilla Foundations Common Voice und Lanfrica/NaijaVoices. Diese Partnerschaften ermöglichten die Sammlung von Sprachaufnahmen von Muttersprachlern, auch in abgelegenen Regionen, und trugen dazu bei, eine breite linguistische Vielfalt zu gewährleisten. Das Ergebnis ist der größte verfügbare Datensatz für ultraniedrig-ressourcenintensive ASR, der Hunderte von Sprachen umfasst, die zuvor noch nie von ASR-Systemen berücksichtigt wurden.
Die automatischen Evaluierungen zeigen, dass Omnilingual ASR signifikante Verbesserungen gegenüber früheren Systemen erzielt, insbesondere unter Bedingungen extremer Ressourcenknappheit. Bei 78 % der unterstützten Sprachen liegt die Zeichenfehlerrate (CER) unter 10 %. Für Sprachen mit mindestens zehn Stunden Trainingsaudio erreichen 95 % diese Marke oder besser. Bei Sprachen mit weniger als zehn Stunden Audio erreichen immerhin 36 % die 10 % CER-Schwelle. Dies unterstreicht die Robustheit des Systems, auch bei Sprachen, die während des Trainings nicht explizit enthalten waren.
Trotz dieser Fortschritte variiert die Genauigkeit je nach Sprache. Während bei hoch- und mittelressourcenintensiven Sprachen über 95 % eine Zeichenfehlerrate unter 10 % erreichen, sind es bei den ressourcenarmen Sprachen nur 36 %. Dies verdeutlicht die weiterhin bestehenden Herausforderungen bei der Entwicklung von KI für Sprachen mit begrenzter Dokumentation.
Die Veröffentlichung von Omnilingual ASR kommt zu einem strategisch wichtigen Zeitpunkt für Meta. Nach der gemischten Resonanz auf Llama 4 positioniert sich Meta mit dieser Initiative erneut im Bereich der mehrsprachigen KI, einem traditionellen Stärkefeld des Unternehmens. Für Unternehmen, die in mehrsprachigen oder internationalen Märkten agieren, senkt Omnilingual ASR die Einstiegshürden für die Implementierung von Sprach-zu-Text-Systemen erheblich. Entwickler erhalten Zugang zu einer Open-Source-Pipeline, die auch seltene Sprachen abdeckt und individuell erweiterbar ist, was insbesondere für Branchen wie Kundenservice, Transkriptionsdienste und Bildung von Bedeutung ist.
Die Initiative unterstreicht Metas Engagement, technologische Barrieren abzubauen und den Zugang zu digitalen Sprachtechnologien weltweit zu erweitern. Durch die Bereitstellung der Modelle und Daten als Open Source wird die Forschungsgemeinschaft eingeladen, auf diesen Grundlagen aufzubauen und die Spracherkennung für weitere Sprachen zu verbessern. Dies trägt dazu bei, die Kommunikationsmöglichkeiten über diverse linguistische und kulturelle Hintergründe hinweg zu erweitern und die Vision einer wirklich universellen Spracherkennung voranzutreiben.
Bibliography - Meta AI Blog. (2025, November 10). Omnilingual ASR: Advancing Automatic Speech Recognition for 1,600+ Languages. Retrieved from https://ai.meta.com/blog/omnilingual-asr-advancing-automatic-speech-recognition/ - Bölling, N. (2025, November 11). Omnilingual ASR: Metas neues KI-System unterstützt über 1.600 Sprachen. t3n.de. Retrieved from https://t3n.de/news/omnilingual-asr-metas-neues-ki-system-unterstuetzt-ueber-1-600-sprachen-1716196/ - Meta AI Research. (2025, November 10). Omnilingual ASR: Open-Source Multilingual Speech Recognition for 1600+ Languages. Retrieved from https://ai.meta.com/research/publications/omnilingual-asr-open-source-multilingual-speech-recognition-for-1600-languages/ - DeepLearning.AI. (2025, November 10). Data Points: Meta AI now recognizes 1600 languages. Retrieved from https://www.deeplearning.ai/the-batch/meta-ai-now-recognizes-1600-languages/ - Bhati, D. (2025, November 11). Meta claims its new open source AI can understand more than 1600 languages, is superintelligence next?. India Today. Retrieved from https://www.indiatoday.in/amp/technology/news/story/meta-claims-its-new-open-source-ai-can-understand-more-than-1600-languages-is-superintelligence-next-2817258-2025-11-11 - Bastian, M. (2025, November 10). Meta's Omnilingual ASR brings speech recognition to 1,600 languages. The Decoder. Retrieved from https://the-decoder.com/metas-omnilingual-asr-brings-speech-recognition-to-1600-languages/ - StartupHub.ai Staff. (2025, November 10). Meta’s Omnilingual ASR uses LLM tech to transcribe 1,600+ languages. StartupHub.ai. Retrieved from https://www.startuphub.ai/ai-news/ai-research/2025/metas-omnilingual-asr-uses-llm-tech-to-transcribe-1600-languages/ - FinanzNachrichten.de. (2025, November 12). Omnilingual ASR: Metas neues KI-System unterstützt über 1.600 Sprachen. Retrieved from https://www.finanznachrichten.de/nachrichten-2025-11/66947566-omnilingual-asr-metas-neues-ki-system-unterstuetzt-ueber-1-600-sprachen-397.htm - Tech Desk. (2025, November 11). Meta's Alexandr Wang unveils new open-source AI model that understands over 1,600 languages. Financial Express. Retrieved from https://www.financialexpress.com/life/technology-metas-alexandr-wang-unveils-new-open-source-ai-model-that-understands-over-1600-languages-4039430/ - Meta AI Blog. (2025, January 1). 200 Sprachen in einem einzigen KI-Modell: Ein Durchbruch bei der qualitativ hochwertigen maschinellen Übersetzung. Retrieved from https://ai.meta.com/blog/nllb-200-high-quality-machine-translation/de/Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen