Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Welt der generativen Künstlichen Intelligenz (KI) hat einen weiteren bedeutenden Fortschritt gemacht: Stable Audio Open, ein Open-Source-Modell, das speziell für die Erstellung kurzer Audiosamples, Soundeffekte und Produktionselemente entwickelt wurde, steht nun der Öffentlichkeit zur Verfügung. Diese Neuheit wurde von Stability AI, einem führenden Unternehmen im Bereich der KI-Entwicklung, bekannt gegeben.
Stable Audio Open ermöglicht es Nutzern, bis zu 47 Sekunden hochwertige Audiodaten aus einfachen Textbefehlen zu generieren. Das Modell wurde speziell trainiert, um Drumbeats, Instrumentalriffs, Umgebungsgeräusche, Foley-Aufnahmen und andere Audiosamples für die Musikproduktion und Sounddesign zu erstellen.
Ein zentraler Vorteil dieses Open-Source-Modells ist die Möglichkeit, es auf eigenen Audiodaten weiter zu verfeinern. Ein Schlagzeuger könnte beispielsweise eigene Schlagzeugaufnahmen nutzen, um neue Beats zu generieren.
Während das kommerzielle Produkt Stable Audio in der Lage ist, hochwertige, vollständige Musikstücke mit einer kohärenten musikalischen Struktur von bis zu drei Minuten Länge zu erzeugen, ist Stable Audio Open auf Audiosamples, Soundeffekte und Produktionselemente spezialisiert. Es kann zwar kurze Musikausschnitte generieren, ist jedoch nicht für vollständige Songs, Melodien oder Gesang optimiert. Dieses Open-Source-Modell bietet einen Einblick in die generative KI für Sounddesign und setzt auf eine verantwortungsvolle Entwicklung in Zusammenarbeit mit kreativen Gemeinschaften.
Das Modell nutzt eine Kombination aus einem Autoencoder, einem textbasierten T5-Modell zur Textkonditionierung und einem transformerbasierten Diffusionsmodell, das im latenten Raum des Autoencoders arbeitet. Die Modellgewichte sind auf der Plattform Hugging Face verfügbar, die es Entwicklern und Audio-Enthusiasten ermöglicht, das Modell herunterzuladen und zu erkunden.
Die Installation und Nutzung von Stable Audio Open ist denkbar einfach. Mit wenigen Zeilen Code kann das Modell installiert und in Betrieb genommen werden:
pip install diffusers
Ein Beispiel für die Nutzung des Modells mit der diffusers-Bibliothek könnte wie folgt aussehen:
import torch
import soundfile as sf
from diffusers import StableAudioPipeline
pipe = StableAudioPipeline.from_pretrained("stabilityai/stable-audio-open-1.0", torch_dtype=torch.float16)
pipe = pipe.to("cuda")
prompt = "The sound of a hammer hitting a wooden surface."
negative_prompt = "Low quality."
generator = torch.Generator("cuda").manual_seed(0)
audio = pipe(
prompt,
negative_prompt=negative_prompt,
num_inference_steps=200,
audio_end_in_s=10.0,
num_waveforms_per_prompt=3,
generator=generator,
).audios
output = audio[0].T.float().cpu().numpy()
sf.write("hammer.wav", output, pipe.vae.sampling_rate)
Das neue Modell wurde auf Audiodaten von Freesound und dem Free Music Archive trainiert. Diese Datenquellen ermöglichen es, ein offenes Audiomodell zu erstellen, das die Rechte der Urheber respektiert. Insgesamt wurden 486.492 Audioaufnahmen genutzt, davon 472.618 von Freesound und 13.874 vom Free Music Archive.
Ein wichtiger Aspekt der Entwicklung von Stable Audio Open ist die verantwortungsvolle Nutzung und Weiterentwicklung. Stability AI hat umfangreiche Analysen durchgeführt, um sicherzustellen, dass keine unautorisierten urheberrechtlich geschützten Musikstücke im Trainingsdatensatz enthalten sind. Dies wurde durch den Einsatz von Klassifikatoren und menschlicher Überprüfung erreicht.
Stable Audio Open stellt einen bedeutenden Schritt in der Weiterentwicklung generativer Audiotechnologien dar. Es bietet Sounddesignern, Musikern und Entwicklern neue Möglichkeiten, kreative Projekte zu realisieren und die Fähigkeiten von KI im Bereich der Audioproduktion zu erforschen. Stability AI plant, die Forschung und Entwicklung in diesem Bereich fortzusetzen und dabei eng mit kreativen Gemeinschaften zusammenzuarbeiten.
Um über die Fortschritte auf dem Laufenden zu bleiben, können Interessierte Stability AI auf Twitter, Instagram, LinkedIn folgen und der Discord-Community beitreten.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen