Stable Audio Open: Revolution in der generativen Audioproduktion durch Open-Source-Technologie

Kategorien:

No items found.

Freigegeben:

August 1, 2024

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Einführung von Stable Audio Open: Ein Meilenstein in der Generativen Audiotechnologie

Die Welt der generativen Künstlichen Intelligenz (KI) hat einen weiteren bedeutenden Fortschritt gemacht: Stable Audio Open, ein Open-Source-Modell, das speziell für die Erstellung kurzer Audiosamples, Soundeffekte und Produktionselemente entwickelt wurde, steht nun der Öffentlichkeit zur Verfügung. Diese Neuheit wurde von Stability AI, einem führenden Unternehmen im Bereich der KI-Entwicklung, bekannt gegeben.

Was ist Stable Audio Open?

Stable Audio Open ermöglicht es Nutzern, bis zu 47 Sekunden hochwertige Audiodaten aus einfachen Textbefehlen zu generieren. Das Modell wurde speziell trainiert, um Drumbeats, Instrumentalriffs, Umgebungsgeräusche, Foley-Aufnahmen und andere Audiosamples für die Musikproduktion und Sounddesign zu erstellen.

Ein zentraler Vorteil dieses Open-Source-Modells ist die Möglichkeit, es auf eigenen Audiodaten weiter zu verfeinern. Ein Schlagzeuger könnte beispielsweise eigene Schlagzeugaufnahmen nutzen, um neue Beats zu generieren.

Unterschiede zu Stable Audio

Während das kommerzielle Produkt Stable Audio in der Lage ist, hochwertige, vollständige Musikstücke mit einer kohärenten musikalischen Struktur von bis zu drei Minuten Länge zu erzeugen, ist Stable Audio Open auf Audiosamples, Soundeffekte und Produktionselemente spezialisiert. Es kann zwar kurze Musikausschnitte generieren, ist jedoch nicht für vollständige Songs, Melodien oder Gesang optimiert. Dieses Open-Source-Modell bietet einen Einblick in die generative KI für Sounddesign und setzt auf eine verantwortungsvolle Entwicklung in Zusammenarbeit mit kreativen Gemeinschaften.

Technische Details

Das Modell nutzt eine Kombination aus einem Autoencoder, einem textbasierten T5-Modell zur Textkonditionierung und einem transformerbasierten Diffusionsmodell, das im latenten Raum des Autoencoders arbeitet. Die Modellgewichte sind auf der Plattform Hugging Face verfügbar, die es Entwicklern und Audio-Enthusiasten ermöglicht, das Modell herunterzuladen und zu erkunden.

Installation und Nutzung

Die Installation und Nutzung von Stable Audio Open ist denkbar einfach. Mit wenigen Zeilen Code kann das Modell installiert und in Betrieb genommen werden:

pip install diffusers

Ein Beispiel für die Nutzung des Modells mit der diffusers-Bibliothek könnte wie folgt aussehen:

import torch
import soundfile as sf
from diffusers import StableAudioPipeline

pipe = StableAudioPipeline.from_pretrained("stabilityai/stable-audio-open-1.0", torch_dtype=torch.float16)
pipe = pipe.to("cuda")

prompt = "The sound of a hammer hitting a wooden surface."
negative_prompt = "Low quality."

generator = torch.Generator("cuda").manual_seed(0)

audio = pipe(
    prompt,
    negative_prompt=negative_prompt,
    num_inference_steps=200,
    audio_end_in_s=10.0,
    num_waveforms_per_prompt=3,
    generator=generator,
).audios

output = audio[0].T.float().cpu().numpy()
sf.write("hammer.wav", output, pipe.vae.sampling_rate)

Training und Datenquellen

Das neue Modell wurde auf Audiodaten von Freesound und dem Free Music Archive trainiert. Diese Datenquellen ermöglichen es, ein offenes Audiomodell zu erstellen, das die Rechte der Urheber respektiert. Insgesamt wurden 486.492 Audioaufnahmen genutzt, davon 472.618 von Freesound und 13.874 vom Free Music Archive.

Verantwortungsvolle Entwicklung

Ein wichtiger Aspekt der Entwicklung von Stable Audio Open ist die verantwortungsvolle Nutzung und Weiterentwicklung. Stability AI hat umfangreiche Analysen durchgeführt, um sicherzustellen, dass keine unautorisierten urheberrechtlich geschützten Musikstücke im Trainingsdatensatz enthalten sind. Dies wurde durch den Einsatz von Klassifikatoren und menschlicher Überprüfung erreicht.

Fazit und Ausblick

Stable Audio Open stellt einen bedeutenden Schritt in der Weiterentwicklung generativer Audiotechnologien dar. Es bietet Sounddesignern, Musikern und Entwicklern neue Möglichkeiten, kreative Projekte zu realisieren und die Fähigkeiten von KI im Bereich der Audioproduktion zu erforschen. Stability AI plant, die Forschung und Entwicklung in diesem Bereich fortzusetzen und dabei eng mit kreativen Gemeinschaften zusammenzuarbeiten.

Um über die Fortschritte auf dem Laufenden zu bleiben, können Interessierte Stability AI auf Twitter, Instagram, LinkedIn folgen und der Discord-Community beitreten.

Bibliographie

- Stability AI. (2024). Introducing Stable Audio Open - An Open Source Model for Audio Samples and Sound Design. Retrieved from https://stability.ai/news/introducing-stable-audio-open - Stability AI. (2024). Stable Audio Open — Stability AI. Retrieved from https://www.stableaudio.com/ - Yoach. (2024). Tweet on Stable Audio Open. Retrieved from https://x.com - GitHub. (2024). stable-audio-open-1.0 repository. Retrieved from https://github.com/stabilityai/stable-audio-open-1.0