KI für Ihr Unternehmen – Jetzt Demo buchen

Effiziente Musikgenerierung durch Presto! Neue Ansätze zur Beschleunigung der Inferenz in KI-Modellen

Kategorien:
No items found.
Freigegeben:
October 8, 2024

Artikel jetzt als Podcast anhören

Inhaltsverzeichnis

    Obwohl diffusionsbasierte Text-zu-Musik (TTM)-Methoden Fortschritte machen, ist eine effiziente Generierung in hoher Qualität nach wie vor eine Herausforderung. Wir stellen Presto! vor, einen Ansatz zur Beschleunigung der Inferenz für partiturbasierte Diffusionstransformatoren durch Reduzierung sowohl der Sampling-Schritte als auch der Kosten pro Schritt. Um die Anzahl der Schritte zu reduzieren, entwickeln wir eine neue partiturbasierte Distillationsmethode für das EDM-Modell der Diffusionsmodelle, die erste GAN-basierte Distillationsmethode für TTM. Um die Kosten pro Schritt zu senken, entwickeln wir eine einfache, aber wirkungsvolle Verbesserung einer aktuellen Layer-Distillationsmethode, die das Lernen durch eine bessere Erhaltung der Varianz des verborgenen Zustands verbessert. Schließlich kombinieren wir unsere Stufen- und Layer-Destillationsmethoden zu einem doppelseitigen Ansatz. Wir evaluieren unsere Stufen- und Layer-Destillationsmethoden unabhängig voneinander und zeigen, dass jede von ihnen eine klassenbeste Leistung erbringt. Unsere kombinierte Destillationsmethode kann qualitativ hochwertige Ausgaben mit verbesserter Diversität erzeugen und unser Basismodell um das 10- bis 18-fache beschleunigen (230/435 ms Latenz für 32 Sekunden Mono/Stereo 44,1 kHz, 15-mal schneller als vergleichbare SOTA-Modelle) - die schnellste qualitativ hochwertige TTM, die uns bekannt ist. Klangbeispiele finden Sie unter https://presto-music.github.io/web/.

    Herausforderungen in der Musikgenerierung

    Die Generierung von Musik mithilfe von künstlicher Intelligenz (KI) hat in den letzten Jahren bemerkenswerte Fortschritte gemacht. Trotz der Fortschritte bei diffusionsbasierten Text-zu-Musik (TTM)-Methoden bleibt die effiziente Generierung hochwertiger Musik eine Herausforderung. Die Generierung komplexer und nuancierter Musikstücke erfordert oft erhebliche Rechenressourcen und Zeit, was die Forschung und praktische Anwendung von TTM-Modellen einschränkt.

    Presto!: Ein zweigleisiger Ansatz zur Beschleunigung der Musikgenerierung

    Um diese Herausforderungen zu bewältigen, wurde Presto! entwickelt, ein neuartiger Ansatz zur Beschleunigung der Inferenz für partiturbasierte Diffusionstransformatoren. Presto! verfolgt einen zweigleisigen Ansatz, indem es sowohl die Anzahl der Sampling-Schritte als auch die Kosten pro Schritt reduziert, die zur Generierung von Musik erforderlich sind. Dies wird durch zwei innovative Methoden erreicht: Score-basierte Distribution-Matching-Destillation (DMD) und verbesserte Layer-Destillation.

    Score-basierte Distribution-Matching-Destillation (DMD)

    Presto! führt DMD ein, eine neue score-basierte Destillationsmethode, die speziell für die EDM-Familie von Diffusionsmodellen entwickelt wurde. DMD ist die erste GAN-basierte Destillationsmethode für TTM und zielt darauf ab, die Anzahl der zur Musikgenerierung erforderlichen Sampling-Schritte zu reduzieren. Durch die Anpassung der Verteilung der generierten Daten an die Verteilung der Trainingsdaten ermöglicht DMD dem Modell, qualitativ hochwertige Musik mit weniger Schritten zu erzeugen.

    Verbesserte Layer-Destillation

    Zusätzlich zur Reduzierung der Sampling-Schritte optimiert Presto! auch die Effizienz jedes einzelnen Schritts durch eine verbesserte Layer-Destillationsmethode. Diese Methode verbessert eine bestehende Technik, indem sie die Varianz des verborgenen Zustands während des Destillationsprozesses besser erhält. Durch die Beibehaltung dieser wichtigen Information kann das Modell die Beziehungen zwischen verschiedenen Musikelementen besser erfassen und genauere und ausdrucksstärkere Musik erzeugen.

    Ergebnisse und Vorteile von Presto!

    Die Evaluierung von Presto! hat vielversprechende Ergebnisse gezeigt, die die Effektivität sowohl der schrittweisen als auch der layerweisen Destillation demonstrieren. Unabhängig voneinander liefern beide Methoden eine klassenbeste Leistung und übertreffen bestehende Ansätze zur Beschleunigung der Musikgenerierung. Die Kombination dieser Methoden in einem zweigleisigen Ansatz führt zu einer erheblichen Beschleunigung des Basismodells um das 10- bis 18-fache. Dies bedeutet, dass Presto! qualitativ hochwertige Musik mit einer Latenz von nur 230/435 ms für 32 Sekunden Mono/Stereo 44,1 kHz erzeugen kann - 15-mal schneller als vergleichbare State-of-the-Art-Modelle. Presto! bietet mehrere Vorteile für die Musikgenerierung: - **Beschleunigte Inferenz:** Presto! ermöglicht eine deutlich schnellere Musikgenerierung und reduziert so die für die Erstellung hochwertiger Musikstücke benötigte Zeit und die Rechenressourcen erheblich. - **Verbesserte Qualität und Vielfalt:** Trotz der Beschleunigung der Inferenz bewahrt Presto! die Qualität und Vielfalt der generierten Musik. Die destillierten Modelle sind in der Lage, Musik zu erzeugen, die mit der des Originals vergleichbar ist und eine große Bandbreite an Musikstilen und -genres abdeckt. - **Effizienzsteigerung:** Durch die Reduzierung der Anzahl der Sampling-Schritte und die Optimierung der Kosten pro Schritt verbessert Presto! die Gesamteffizienz von TTM-Modellen.

    Schlussfolgerung

    Presto! stellt einen bedeutenden Fortschritt im Bereich der KI-gestützten Musikgenerierung dar. Durch die Einführung neuartiger Destillationsmethoden überwindet Presto! die Einschränkungen bestehender TTM-Modelle und ermöglicht eine schnellere und effizientere Generierung hochwertiger Musik. Dieser Durchbruch eröffnet neue Möglichkeiten für Musiker, Komponisten und Musikbegeisterte, mit KI zu experimentieren und ihr kreatives Potenzial zu erkunden. Mit seiner Fähigkeit, den Musikgenerierungsprozess zu beschleunigen, ohne die Qualität zu beeinträchtigen, ebnet Presto! den Weg für eine neue Ära des musikalischen Ausdrucks und der Innovation. # Bibliografie [1] Pezzat-Morales, M.; Perez-Meana, H.; Nakashika, T. Fast Jukebox: Accelerating Music Generation with Knowledge Distillation. Appl. Sci. 2023, 13, 5630. https://doi.org/10.3390/app13095630 [2] Briot, J.-P.; Hadjerrouit, S.; Pachet, F. Deep Learning Techniques for Music Generation—A Survey. arXiv 2020, arXiv:2009.05150. [3] Krizhevsky, A.; Sutskever, I.; Hinton, G.E. ImageNet classification with deep convolutional neural networks. In Proceedings of the Advances in Neural Information Processing Systems, Harrahs and Harveys, Lake Tahoe, NV, USA, 3–8 December 2012; pp. 1097–1105. [4] Sutskever, I.; Vinyals, O.; Le, Q.V. Sequence to sequence learning with neural networks. In Proceedings of the Advances in Neural Information Processing Systems, Montreal, QC, Canada, 8–13 December 2014; pp. 3104–3112. [5] Bahdanau, D.; Cho, K.; Bengio, Y. Neural machine translation by jointly learning to align and translate. arXiv 2014, arXiv:1409.0473. [6] Eck, D.; Schmidhuber, J. Finding temporal structure in music: Blues improvisation with LSTM recurrent networks. In Proceedings of the International Conference on Neural Information Processing, Dunedin, New Zealand, 27 November–1 December 2002; pp. 747–752. [7] Goodfellow, I.J.; Pouget-Abadie, J.; Mirza, M.; Xu, B.; Warde-Farley, D.; Ozair, S.; Courville, A.; Bengio, Y. Generative adversarial nets. In Proceedings of the Advances in Neural Information Processing Systems, Montreal, QC, Canada, 8–13 December 2014; pp. 2672–2680. [8] Mirza, M.; Osindero, S. Conditional generative adversarial nets. arXiv 2014, arXiv:1411.1784. [9] Kingma, D.P.; Welling, M. Auto-encoding variational Bayes. arXiv 2013, arXiv:1312.6114. [10] Vaswani, A.; Shazeer, N.; Parmar, N.; Uszkoreit, J.; Jones, L.; Gomez, A.N.; Kaiser, Ł.; Polosukhin, I. Attention is all you need. In Proceedings of the Advances in Neural Information Processing Systems, Long Beach, CA, USA, 4–9 December 2017; pp. 5988–5998. [11] Dhariwal, P.; Jun, H.; Payne, C.; Kim, J.W.; Luan, Y.; Radford, J.; Chen, M.; Creswell, A.; Hesse, C.; Sifre, L.; et al. Jukebox: A generative model for music. arXiv 2020, arXiv:2005.00144. [12] OpenAI. Jukebox. 2020. Available online: https://openai.com/blog/jukebox/ (accessed on 26 April 2023). [13] Oord, A.v.d.; Vinyals, O.; Kavukcuoglu, K. Neural discrete representation learning. In Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, CA, USA, 4–9 December 2017. [14] Jiao, X.; Yin, Y.; Shang, L.; Jiang, X.; Chen, X.; Li, L.; Wang, F.; Liu, Q. TinyBERT: Distilling BERT for natural language understanding. arXiv 2019, arXiv:1909.10351. [15] Yang, L.C.; Chou, S.Y.; Yeh, Y.H. MidiNet: A convolutional generative adversarial network for symbolic-domain music generation. In Proceedings of the ISMIR, Paris, France, 23–27 September 2017; pp. 389–395. [16] Dong, H.W.; Hsiao, W.Y.; Yang, L.C.; Yang, Y.H. MuseGAN: Multi-track sequential generative adversarial networks for symbolic music generation and accompaniment. In Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence, New Orleans, LA, USA, 2–7 February 2018. [17] Roberts, A.; Engel, J.; Raffel, C.; Hawthorne, C.; Eck, D. A hierarchical latent vector model for learning long-term structure in music. arXiv 2018, arXiv:1803.05428. [18] Wu, J.; Zhang, C.; Chu, X.; Zhou, Z. HRNN: A deep hierarchical recurrent neural network for symbolic music generation. In Proceedings of the 2019 International Joint Conference on Neural Networks (IJCNN), Budapest, Hungary, 14–19 July 2019; pp. 1–8. [19] Oord, A.v.d.; Dieleman, S.; Zen, H.; Simonyan, K.; Vinyals, O.; Graves, A.; Kalchbrenner, N.; Senior, A.; Kavukcuoglu, K. Wavenet: A generative model for raw audio. arXiv 2016, arXiv:1609.03499. [20] Oord, A.v.d.; Dieleman, S.; Zen, H.; Simonyan, K.; Vinyals, O.; Graves, A.; Kalchbrenner, N.; Senior, A.; Kavukcuoglu, K. WaveNet: A generative model for raw audio. In Proceedings of the SSW, Barcelona, Spain, 4–9 December 2016. [21] Ping, W.; Peng, K.; Zhao, Y. Clarinet: Parallel wave generation in end-to-end text-to-speech. arXiv 2019, arXiv:1910.10336. [22] Ping, W.; Peng, K.; Gibian, A.; Arik, S.; Kannan, A.; Narang, S.; Ankur, P.; Bai, Y.; Pang, R. Deep voice 3: Scaling text-to-speech with convolutional sequence learning. arXiv 2017, arXiv:1710.07654. [23] Tamamori, A.; Kobayashi, T.; Takamichi, S.; Toda, T. Speaker-dependent WaveNet vocoder inference acceleration with teacher-student learning. In Proceedings of the ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brighton, UK, 12–17 May 2019; pp. 6086–6090. [24] Kumar, K.; Kumar, R.; de Boissiere, T.; Gestin, L.; Teoh, W.Z.; Sotelo, J.; de Brébisson, A.; Bengio, Y.; Courville, A.C. MelGAN: Generative adversarial networks for conditional waveform synthesis. In Proceedings of the Advances in Neural Information Processing Systems, Vancouver, BC, Canada, 8–14 December 2019; pp. 14910–14921. [25] Donahue, C.; McAuley, J.; Puckette, M. Adversarial audio synthesis. arXiv 2018, arXiv:1802.04208. [26] Vaswani, A.; Shazeer, N.; Parmar, N.; Uszkoreit, J.; Jones, L.; Gomez, A.N.; Kaiser, Ł.; Polosukhin, I. Attention is all you need. arXiv 2017, arXiv:1706.03762. [27] Huang, C.Z.; Vaswani, A.; Uszkoreit, J.; Simon, I.; Hawthorne, C.; Shazeer, N.; Dai, A.M.; Hoffman, M.D.; Dinculescu, M.; Eck, D. Music transformer: Generating music with long-term structure. arXiv 2018, arXiv:1809.04281. [28] Payne, C. MuseNet. 2019. Available online: https://openai.com/blog/musenet/ (accessed on 26 April 2023). [29] Child, R.; Gray, S.; Radford, A.; Sutskever, I. Generating long sequences with sparse transformers. arXiv 2019, arXiv:1904.10509. [30] Dieleman, S.; van den Oord, A.; Simonyan, K. The challenge of realistic music generation: Modelling raw audio at scale. In Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017) Workshop on Bayesian Deep Learning, Long Beach, CA, USA, 4–9 December 2017. [31] Mehri, S.; Kumar, K.; Gulrajani, I.; Kumar, R.; Jain, S.; Courville, A.; Bengio, Y. Samplernn: An unconditional end-to-end neural audio generation model. arXiv 2016, arXiv:1612.07837. [32] Hinton, G.; Vinyals, O.; Dean, J. Distilling the knowledge in a neural network. arXiv 2015, arXiv:1503.02531. [33] Dhariwal, P.; Jun, H.; Payne, C.; Kim, J.W.; Luan, Y.; Radford, J.; Chen, M.; Creswell, A.; Hesse, C.; Sifre, L.; et al. Jukebox. 2020. Available online: https://github.com/openai/jukebox (accessed on 26 April 2023). [34] Dhariwal, P.; Jun, H.; Payne, C.; Kim, J.W.; Luan, Y.; Radford, J.; Chen, M.; Creswell, A.; Hesse, C.; Sifre, L.; et al. Jukebox Samples. 2020. Available online: https://openai.com/blog/jukebox/#samples (accessed on 26 April 2023). [35] Esling, P.; Agres, K.; Hoerig, C. What is conditional in conditional GANs? In Proceedings of the ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Toronto, ON, Canada, 6–11 June 2021; pp. 3680–3684.
    Mindverse vs ChatGPT Plus Widget

    Warum Mindverse Studio?

    Entdecken Sie die Vorteile gegenüber ChatGPT Plus

    Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.

    🚀 Mindverse Studio

    Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.

    ChatGPT Plus

    ❌ Kein strukturierter Dokumentenvergleich

    ❌ Keine Bearbeitung im Dokumentkontext

    ❌ Keine Integration von Unternehmenswissen

    VS

    Mindverse Studio

    ✅ Gezielter Dokumentenvergleich mit Custom-Prompts

    ✅ Kontextbewusste Textbearbeitung im Editor

    ✅ Wissensbasierte Analyse & Zusammenfassungen

    📚 Nutzen Sie Ihr internes Wissen – intelligent und sicher

    Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.

    ChatGPT Plus

    ❌ Nur ein Modellanbieter (OpenAI)

    ❌ Keine Modellauswahl pro Use Case

    ❌ Keine zentrale Modellsteuerung für Teams

    VS

    Mindverse Studio

    ✅ Zugriff auf über 50 verschiedene KI-Modelle

    ✅ Modellauswahl pro Prompt oder Assistent

    ✅ Zentrale Steuerung auf Organisationsebene

    🧠 Zugang zu allen führenden KI-Modellen – flexibel & anpassbar

    OpenAI GPT-4: für kreative Texte und allgemeine Anwendungen
    Anthropic Claude: stark in Analyse, Struktur und komplexem Reasoning
    Google Gemini: ideal für multimodale Aufgaben (Text, Bild, Code)
    Eigene Engines: individuell trainiert auf Ihre Daten und Prozesse

    ChatGPT Plus

    ❌ Keine echte Teamkollaboration

    ❌ Keine Rechte- oder Rollenverteilung

    ❌ Keine zentrale Steuerung oder Nachvollziehbarkeit

    VS

    Mindverse Studio

    ✅ Teamübergreifende Bearbeitung in Echtzeit

    ✅ Granulare Rechte- und Freigabeverwaltung

    ✅ Zentrale Steuerung & Transparenz auf Organisationsebene

    👥 Kollaborative KI für Ihr gesamtes Unternehmen

    Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.

    Bereit für den nächsten Schritt?

    Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.

    🎯 Kostenlose Demo buchen

    Wie können wir Ihnen heute helfen?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen