Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Die Welt der generativen Künstlichen Intelligenz (KI) hat einen weiteren bedeutenden Fortschritt gemacht: Stable Audio Open, ein Open-Source-Modell, das speziell für die Erstellung kurzer Audiosamples, Soundeffekte und Produktionselemente entwickelt wurde, steht nun der Öffentlichkeit zur Verfügung. Diese Neuheit wurde von Stability AI, einem führenden Unternehmen im Bereich der KI-Entwicklung, bekannt gegeben.
Stable Audio Open ermöglicht es Nutzern, bis zu 47 Sekunden hochwertige Audiodaten aus einfachen Textbefehlen zu generieren. Das Modell wurde speziell trainiert, um Drumbeats, Instrumentalriffs, Umgebungsgeräusche, Foley-Aufnahmen und andere Audiosamples für die Musikproduktion und Sounddesign zu erstellen.
Ein zentraler Vorteil dieses Open-Source-Modells ist die Möglichkeit, es auf eigenen Audiodaten weiter zu verfeinern. Ein Schlagzeuger könnte beispielsweise eigene Schlagzeugaufnahmen nutzen, um neue Beats zu generieren.
Während das kommerzielle Produkt Stable Audio in der Lage ist, hochwertige, vollständige Musikstücke mit einer kohärenten musikalischen Struktur von bis zu drei Minuten Länge zu erzeugen, ist Stable Audio Open auf Audiosamples, Soundeffekte und Produktionselemente spezialisiert. Es kann zwar kurze Musikausschnitte generieren, ist jedoch nicht für vollständige Songs, Melodien oder Gesang optimiert. Dieses Open-Source-Modell bietet einen Einblick in die generative KI für Sounddesign und setzt auf eine verantwortungsvolle Entwicklung in Zusammenarbeit mit kreativen Gemeinschaften.
Das Modell nutzt eine Kombination aus einem Autoencoder, einem textbasierten T5-Modell zur Textkonditionierung und einem transformerbasierten Diffusionsmodell, das im latenten Raum des Autoencoders arbeitet. Die Modellgewichte sind auf der Plattform Hugging Face verfügbar, die es Entwicklern und Audio-Enthusiasten ermöglicht, das Modell herunterzuladen und zu erkunden.
Die Installation und Nutzung von Stable Audio Open ist denkbar einfach. Mit wenigen Zeilen Code kann das Modell installiert und in Betrieb genommen werden:
pip install diffusers
Ein Beispiel für die Nutzung des Modells mit der diffusers-Bibliothek könnte wie folgt aussehen:
import torch
import soundfile as sf
from diffusers import StableAudioPipeline
pipe = StableAudioPipeline.from_pretrained("stabilityai/stable-audio-open-1.0", torch_dtype=torch.float16)
pipe = pipe.to("cuda")
prompt = "The sound of a hammer hitting a wooden surface."
negative_prompt = "Low quality."
generator = torch.Generator("cuda").manual_seed(0)
audio = pipe(
prompt,
negative_prompt=negative_prompt,
num_inference_steps=200,
audio_end_in_s=10.0,
num_waveforms_per_prompt=3,
generator=generator,
).audios
output = audio[0].T.float().cpu().numpy()
sf.write("hammer.wav", output, pipe.vae.sampling_rate)
Das neue Modell wurde auf Audiodaten von Freesound und dem Free Music Archive trainiert. Diese Datenquellen ermöglichen es, ein offenes Audiomodell zu erstellen, das die Rechte der Urheber respektiert. Insgesamt wurden 486.492 Audioaufnahmen genutzt, davon 472.618 von Freesound und 13.874 vom Free Music Archive.
Ein wichtiger Aspekt der Entwicklung von Stable Audio Open ist die verantwortungsvolle Nutzung und Weiterentwicklung. Stability AI hat umfangreiche Analysen durchgeführt, um sicherzustellen, dass keine unautorisierten urheberrechtlich geschützten Musikstücke im Trainingsdatensatz enthalten sind. Dies wurde durch den Einsatz von Klassifikatoren und menschlicher Überprüfung erreicht.
Stable Audio Open stellt einen bedeutenden Schritt in der Weiterentwicklung generativer Audiotechnologien dar. Es bietet Sounddesignern, Musikern und Entwicklern neue Möglichkeiten, kreative Projekte zu realisieren und die Fähigkeiten von KI im Bereich der Audioproduktion zu erforschen. Stability AI plant, die Forschung und Entwicklung in diesem Bereich fortzusetzen und dabei eng mit kreativen Gemeinschaften zusammenzuarbeiten.
Um über die Fortschritte auf dem Laufenden zu bleiben, können Interessierte Stability AI auf Twitter, Instagram, LinkedIn folgen und der Discord-Community beitreten.
Entdecken Sie die Vorteile gegenüber ChatGPT Plus
Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.
Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.
❌ Kein strukturierter Dokumentenvergleich
❌ Keine Bearbeitung im Dokumentkontext
❌ Keine Integration von Unternehmenswissen
✅ Gezielter Dokumentenvergleich mit Custom-Prompts
✅ Kontextbewusste Textbearbeitung im Editor
✅ Wissensbasierte Analyse & Zusammenfassungen
Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.
❌ Nur ein Modellanbieter (OpenAI)
❌ Keine Modellauswahl pro Use Case
❌ Keine zentrale Modellsteuerung für Teams
✅ Zugriff auf über 50 verschiedene KI-Modelle
✅ Modellauswahl pro Prompt oder Assistent
✅ Zentrale Steuerung auf Organisationsebene
❌ Keine echte Teamkollaboration
❌ Keine Rechte- oder Rollenverteilung
❌ Keine zentrale Steuerung oder Nachvollziehbarkeit
✅ Teamübergreifende Bearbeitung in Echtzeit
✅ Granulare Rechte- und Freigabeverwaltung
✅ Zentrale Steuerung & Transparenz auf Organisationsebene
Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.
Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.
🎯 Kostenlose Demo buchenLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen