Googles Durchbruch in der Sprachsynthese ermöglicht Kommunikation für alle

Kategorien:

No items found.

Freigegeben:

August 27, 2024

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Google gibt Menschen die Stimme zurück, die sie nie hatten

Einführung in die neue Technologie

Die sprachgesteuerte Technologie hat in den letzten Jahren bemerkenswerte Fortschritte gemacht. Dank der neuesten Entwicklungen im Bereich der Stimmensynthese kann nun schon ein paar Sekunden Audioaufzeichnung ausreichen, um die Stimme einer Person zu synthetisieren. Diese bahnbrechende Technologie ist besonders vorteilhaft für Menschen mit Sprachbehinderungen.

Die neue Null-Schuss-Stimmenübertragungsmodul von Google

Google hat kürzlich ein neues Null-Schuss-Stimmenübertragungsmodul für Text-zu-Sprache-Systeme vorgestellt. Diese Technologie zielt darauf ab, Stimmen für Menschen mit Bedingungen wie Dysarthrie wiederherzustellen, die ihre typische Stimme verloren haben oder nie eine hatten. „Sprecher mit degenerativen neurologischen Erkrankungen, wie amyotrophe Lateralsklerose (ALS), Parkinson und Multiple Sklerose, können im Laufe der Zeit eine Verschlechterung einiger einzigartiger Merkmale ihrer Stimme erfahren“, erklären die Autoren in einem Blogbeitrag. „Einige Menschen werden mit Bedingungen wie Muskeldystrophie geboren, die das Artikulationssystem beeinträchtigen und ihre Fähigkeit, bestimmte Laute zu erzeugen, einschränken.“

Revolutionäre Ansätze und minimale Anforderungen

Im Gegensatz zu früheren Technologien, die umfangreiche Sprachproben benötigten, um Modelle zu trainieren, benötigt Googles neuer Ansatz kein Training. Er verwendet kurze Audio-Referenzclips während der Generierung, um die Stimme einer Person auf die synthetisierte Ausgabe zu übertragen. Dies macht es besonders geeignet für Menschen mit begrenzten oder atypischen Sprachproben.

Hochwertige Sprachsynthese aus kurzen Proben

Die Forscher integrierten ihr Stimmenübertragungsmodul in ein Text-zu-Sprache-System und demonstrierten dessen Wirksamkeit bei der Wiederherstellung von Stimmen für Sprecher, die ihre typische Sprache vor der Verschlechterung aufgezeichnet hatten. Bemerkenswerterweise produzierte das Modell qualitativ hochwertige Sprache mit starker Stimmtreue, selbst bei atypischen Eingabeproben. Das Modul nimmt ein 2- bis 14-Sekunden-Spektrogramm und extrahiert akustisch-phonetische und prosodische Stimmmerkmale. Diese werden an andere Schichten als Einbettungsvektor weitergegeben.

Fallstudien und praktische Anwendungen

In einer Fallstudie stellte der taube Google-Forscher Dimitri Kanevsky 12 Sekunden seiner atypischen Stimme als Referenz zur Verfügung. Das Modell synthetisierte ein Transkript von Kanevskys ursprünglichem Video. Kollegen bewerteten die Ähnlichkeit der Ausgangsstimme mit seiner eigenen im Durchschnitt mit 8,1 von 10 Punkten. Eine weitere Studie konzentrierte sich auf Aubrie Lee, eine Google-Mitarbeiterin mit Muskeldystrophie, die nie eine typische Stimme hatte. Mit 14 Sekunden von Lees atypischer Referenzstimme synthetisierte das Modell das Transkript ihres Videos. Lee selbst bewertete die Ähnlichkeit mit 8 von 10 Punkten.

Multilinguale Fähigkeiten und globale Reichweite

Die Forscher zeigten auch die Fähigkeit des Modells, Stimmen in andere Sprachen, einschließlich Französisch, Spanisch, Italienisch, Arabisch, Deutsch, Russisch, Hindi und Norwegisch, zu übersetzen. Audiodateien sind auf der GitHub-Seite des Projekts verfügbar.

Adressierung potenziellen Missbrauchs und zukünftige Verfügbarkeit

Um Missbrauch zu verhindern, verwendet Google sein SynthID-Wasserzeichensystem. Dieses bettet nicht wahrnehmbare Informationen in die synthetisierte Audiodatei ein, wodurch die Identifizierung potenziell manipulierter Inhalte ermöglicht wird. Google merkt an, dass das Missbrauchsrisiko für Menschen, die nie eine typische Sprache hatten, geringer ist, da die synthetische Natur der Ausgabe offensichtlich wäre. Vor kurzem verzögerte Microsoft die Veröffentlichung eines ähnlichen leistungsstarken Sprachsynthesemodells aufgrund des Mangels an einem zuverlässigen Kennzeichnungssystem. Google hat noch keine Pläne angekündigt, ihr neues System öffentlich zu veröffentlichen.

Schlussfolgerung

Die Entwicklung des Null-Schuss-Stimmenübertragungsmoduls von Google für Text-zu-Sprache-Systeme stellt einen bedeutenden Fortschritt im Bereich der Sprachsynthese dar. Diese Technologie hat das Potenzial, die Lebensqualität von Menschen mit Sprachstörungen erheblich zu verbessern, indem sie ihnen eine Stimme gibt, die sie verloren haben oder nie hatten. Die schnelle und qualitativ hochwertige Produktion von synthetischer Sprache aus kurzen Audio-Referenzproben zeigt die Effektivität und Vielseitigkeit dieses neuen Ansatzes.

Bibliografie

- https://the-decoder.com/google-gives-people-back-the-voice-they-never-had/ - https://support.google.com/voice/answer/159519?hl=en - https://support.google.com/voice/thread/183992776/google-voice-number-taken?hl=en - https://www.reddit.com/r/Googlevoice/comments/113l17r/google_voice_suspended_no_remedy/ - https://www.vrt.be/vrtnws/en/2019/07/10/google-employees-are-eavesdropping-even-in-flemish-living-rooms/ - https://www.mass.gov/news/google-voice-scams - https://www.reconciliation.org.au/reconciliation/support-a-voice-to-parliament/ - https://allaboutcookies.org/google-voice-scams - https://www.youtube.com/watch?v=pDhukTKM1ac - https://www.googlenestcommunity.com/t5/Home-Automation/Broadcast-messages-are-no-longer-longer-voice-messages/m-p/493619