Umfassende Sammlung von Open-Source-Sprachdaten für europäische Sprachen vorgestellt

Kategorien:

No items found.

Freigegeben:

October 8, 2024

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Ein internationales Forscherteam hat mit MOSEL (Massive Open-source compliant Speech data for European Languages) eine umfangreiche Sammlung von Open-Source-Sprachdaten für die 24 offiziellen Sprachen der Europäischen Union zusammengestellt. Das Projekt zielt darauf ab, die Entwicklung von offenen KI-Sprachmodellen in Europa voranzutreiben. Die Sammlung von Trainingsdaten für leistungsstarke KI-Sprachmodelle stellt eine Herausforderung dar. Bisher dominierten englischsprachige Datensätze und proprietäre Systeme großer Technologieunternehmen. Mit MOSEL soll sich dies nun ändern. Die Daten stammen aus 18 verschiedenen Quellen, darunter Projekte wie CommonVoice, LibriSpeech und VoxPopuli. Sie umfassen sowohl transkribierte Sprachaufnahmen als auch nicht-gelabelte Audiodaten. Besonders wertvoll sind die 505.000 Stunden transkribierter Daten. Die Verteilung auf die Sprachen ist jedoch sehr ungleichmäßig. Während für Englisch über 437.000 Stunden gelabelte Daten vorliegen, gibt es für Sprachen wie Maltesisch oder Irisch nur wenige Stunden Material.

KI-gestützte Transkription erweitert Datenbasis

Um die Datenlage für ressourcenarme Sprachen zu verbessern, transkribierten die Forscher automatisch weitere 441.000 Stunden zuvor nicht-gelabelter Audiodaten. Sie nutzten dafür das KI-Modell Whisper von OpenAI. Obwohl die automatische Transkription nicht perfekt ist, ermöglicht sie die Bereitstellung großer Mengen an Trainingsmaterial auch für Sprachen mit wenigen manuell transkribierten Daten. Die generierten Transkripte werden unter der Creative Commons CC-BY-Lizenz veröffentlicht, die eine freie Nutzung mit Namensnennung erlaubt. Die Herausforderungen der automatischen Transkription zeigen sich besonders deutlich im Fall des Maltesischen. Hier erreichte das Whisper-Modell eine Worterkennungsfehlerrate von über 80 Prozent - das heißt, dass durchschnittlich vier von fünf Wörtern falsch erkannt wurden. Für solche Sprachen ist also noch viel Arbeit nötig - die automatisierten Transkriptionen könnten aber als Ausgangspunkt für weitere Verbesserungen dienen. Das Team plant außerdem, weitere Daten für unterrepräsentierte Sprachen zu sammeln. Die gesamte Datensammlung ist frei verfügbar auf GitHub zugänglich und soll Forschern und Entwicklern den Zugang zu umfangreichen Sprachdaten für europäische Sprachen erleichtern. Das Projekt MOSEL stellt einen wichtigen Schritt zur Überwindung der Dominanz englischsprachiger Datensätze im Bereich der Sprach-KI dar. Durch die Bereitstellung einer umfangreichen und frei verfügbaren Datengrundlage für europäische Sprachen könnte MOSEL die Entwicklung von Sprachmodellen fördern, die die sprachliche Vielfalt Europas besser abbilden. ## Bibliographie - https://arxiv.org/abs/2410.01036 - https://the-decoder.com/researchers-collect-950000-hours-of-open-source-speech-data-for-eu-languages/ - https://arxiv.org/html/2410.01036 - https://powerdrill.ai/discover/discover-MOSEL-950000-Hours-cm1tsb8ggrobw013wbliyv7vo - https://www.marktechpost.com/2024/10/07/mosel-collection-of-open-source-speech-data-for-speech-foundation-model-training-on-eu-languages/ - https://huggingface.co/papers/2410.01036 - https://bytez.com/docs/arxiv/2410.01036/paper - https://mt.fbk.eu/modernmt-2/ - https://www.threads.net/@undercodenews/post/DAwrBPZNhpe - https://speechtek.fbk.eu/author/speechtek_admin/