KI für Ihr Unternehmen – Jetzt Demo buchen

Neuer Ansatz zur Sprachsynthese mit Per-Token Latent Diffusion

Kategorien:
No items found.
Freigegeben:
October 29, 2024

Inhaltsverzeichnis

KI für Unternehmen

Kontinuierliche Sprachsynthese mithilfe von Per-Token Latent Diffusion

Die Erfolgsgeschichte autoregressiver Transformer-Modelle mit diskreten Token hat quantisierungsbasierte Ansätze für kontinuierliche Modalitäten inspiriert, obwohl diese oft die Rekonstruktionsqualität einschränken. In diesem Artikel stellen wir SALAD vor, ein Per-Token Latent Diffusion Modell für Zero-Shot-Text-to-Speech, das mit kontinuierlichen Repräsentationen arbeitet.

Von diskreten Token zu kontinuierlichen Repräsentationen

Autoregressive (AR) Modellierung wird oft mit diskreten Repräsentationen in Verbindung gebracht, wahrscheinlich aufgrund des bemerkenswerten Erfolgs von Large Language Models (LLMs), die auf einer diskreten Modalität operieren. Inspiriert durch den Erfolg von LLMs werden kontinuierliche Modalitäten wie Audio und Bilder quantisiert, um diskret modelliert zu werden. Die diskrete Modellierung über kontinuierlichen Domänen erfordert jedoch eine Quantisierung, die die Rekonstruktionsqualität und die Obergrenze der Wiedergabetreue beeinträchtigt. Die Verwendung mehrerer RVQ-Quantisierer verbessert zwar die Wiedergabetreue, aber die feinen RVQ-Codes könnten Rauschen quantisieren, was für diskrete Modellierungsmethoden schädlich sein kann. Diskrete Autoencoder können auch unter einer geringen Codebuchnutzung leiden, und multimodale Modelle, die mit diskreten Repräsentationen arbeiten, leiden unter Stabilitätsproblemen. Daher liegt der Verdacht nahe, dass die Quantisierung von inhärent kontinuierlichen Modalitäten suboptimal sein könnte, und wir konzentrieren uns stattdessen auf kontinuierliche Alternativen. Die Vorhersage kontinuierlicher Verteilungen mit Regressionsverlusten wie L1 oder L2 induziert eine unimodale Verteilung, eine unrealistische Annahme für die meisten generativen Aufgaben. Wir gehen davon aus, dass multimodale Verteilungen, die mehrere lokale Maxima ermöglichen, komplexere Muster darstellen können und für generative Eins-zu-Viele-Aufgaben entscheidend sind. Neuere Arbeiten im Bereich der Bildgenerierung haben Ansätze zur Modellierung kontinuierlicher Verteilungen untersucht.

SALAD: Ein neuer Ansatz für die Sprachsynthese

Wir schlagen SALAD (Speech synthesis with Autoregressive LAtent Diffusion) vor, ein Per-Token Latent Diffusion Modell für Zero-Shot-Sprachsynthese über kontinuierlichen Repräsentationen, inspiriert durch den von Li et al. (2024) vorgeschlagenen Per-Token Diffusion Head. Wir ermöglichen die Generierung von Ausgaben variabler Länge und adressieren damit eine Herausforderung, die bei Bildgenerierungsmethoden, bei denen die Anzahl der zu generierenden Token fest vorgegeben ist, nicht besteht. Wir verwenden semantische Token - quantisierte Einbettungen eines selbstüberwachten Modells - für Kontextinformationen und um die Bedingung für das Stoppen der Generierung zu definieren. SALAD ist nicht auf Text-Audio-Alignment angewiesen, was es einfacher macht, große Datenquellen zu nutzen, und kann Audio basierend auf einem Zielsprecher unter Verwendung eines drei Sekunden langen Sprecher-Prompts synthetisieren. Wir schlagen drei Varianten für SALAD vor: - T2A (Text2Acoustic): Sagt akustische Merkmale direkt aus Text voraus, wobei semantische Token als Hilfsaufgabe verwendet werden. - S2A-AR (Semantic2Acoustic Autoregressive): Sagt akustische Merkmale aus semantischen Token durch Next-Token-Prädiktion voraus. - S2A-NAR (Semantic2Acoustic Non-Autoregressive): Sagt akustische Merkmale aus semantischen Token unter Verwendung eines MaskGIT-Zeitplans (Chang et al., 2022) voraus. Für jede unserer kontinuierlichen Varianten trainieren wir ein vergleichbares Modell, das mit diskreten Repräsentationen arbeitet und den Diffusionskopf durch diskrete RVQ-Prädiktionsköpfe ersetzt. Unser diskretes T2A-Modell ist das erste, das semantische und akustische Token parallel direkt aus Text vorhersagt.

🚀 Denken Sie, KI ist zu kompliziert für Ihr Team?

Entdecken Sie, wie Unternehmen mit Mindverse ihre Arbeitsabläufe verbessern und gemeinsam mehr erreichen.

Jetzt Termin buchen

Bewertung und Ergebnisse

Wir bewerten alle Modelle hinsichtlich Sprachqualität, Verständlichkeit und Sprecherähnlichkeit. Die Ergebnisse deuten darauf hin, dass das T2A-Modell von SALAD die höchste Verständlichkeitsbewertung erzielt, während die Sprachqualität und die Ähnlichkeitsbewertungen mit der des Ground-Truth-Audios vergleichbar sind, gemessen in subjektiven Hörtests.

Beiträge und Ausblick

Zusammenfassend lässt sich sagen, dass unsere Arbeit folgende Beiträge leistet: - Vorschlag von SALAD, einem Zero-Shot-Sprachsynthesesystem, das Per-Token Latent Diffusion verwendet. - Erweiterung gängiger diskreter Sprachsynthesemethoden auf kontinuierliche Repräsentationen. - Vorschlag eines diskreten Text-to-Acoustic-Modells und Verbesserung der Entmaskungsmethode von SoundStorm. - Vergleich von diskreten und kontinuierlichen Modellierungstechniken in einer kontrollierten Umgebung. Unsere Ergebnisse zeigen, dass sowohl kontinuierliche als auch diskrete Ansätze sehr kompetent sind und dass SALAD eine überragende Verständlichkeit erreicht, während Sprachqualität und Sprecherähnlichkeit mit dem Originalaudio vergleichbar sind. Die Zukunft der Sprachsynthese könnte in der Weiterentwicklung und Verfeinerung von Modellen wie SALAD liegen, die die Grenzen zwischen diskreten und kontinuierlichen Repräsentationen weiter verwischen.

Bibliographie

https://arxiv.org/abs/2410.16048 https://openreview.net/forum?id=wkmCbrrDQN https://openreview.net/pdf/967dbad32713b50ad79c21aa35a7ffbef31572ce.pdf https://arxiv.org/html/2410.16048v1 https://www.aimodels.fyi/papers/arxiv/continuous-speech-synthesis-using-per-token-latent https://www.researchgate.net/scientific-contributions/Avihu-Dekel-2279115246 https://x.com/AudioAndSpeech/status/1848603124585377997 https://www.isca-archive.org/interspeech_2024/lemerle24_interspeech.pdf https://www.scribd.com/document/640679253/2304-09116 https://www.researchgate.net/figure/The-per-token-diffusion-head_fig1_385108038
Kunden die uns vertrauen:
Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
und viele weitere mehr!

Bereit für den nächsten Schritt?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
Herzlichen Dank! Deine Nachricht ist eingegangen!
Oops! Du hast wohl was vergessen, versuche es nochmal.

🚀 Neugierig auf Mindverse Studio?

Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

🚀 Demo jetzt buchen