KI für Ihr Unternehmen – Jetzt Demo buchen

Stable Audio Open: Revolution in der generativen Audioproduktion durch Open-Source-Technologie

Kategorien:
No items found.
Freigegeben:
August 1, 2024

Artikel jetzt als Podcast anhören

Inhaltsverzeichnis

    Einführung von Stable Audio Open: Ein Meilenstein in der Generativen Audiotechnologie

    Die Welt der generativen Künstlichen Intelligenz (KI) hat einen weiteren bedeutenden Fortschritt gemacht: Stable Audio Open, ein Open-Source-Modell, das speziell für die Erstellung kurzer Audiosamples, Soundeffekte und Produktionselemente entwickelt wurde, steht nun der Öffentlichkeit zur Verfügung. Diese Neuheit wurde von Stability AI, einem führenden Unternehmen im Bereich der KI-Entwicklung, bekannt gegeben.

    Was ist Stable Audio Open?

    Stable Audio Open ermöglicht es Nutzern, bis zu 47 Sekunden hochwertige Audiodaten aus einfachen Textbefehlen zu generieren. Das Modell wurde speziell trainiert, um Drumbeats, Instrumentalriffs, Umgebungsgeräusche, Foley-Aufnahmen und andere Audiosamples für die Musikproduktion und Sounddesign zu erstellen.

    Ein zentraler Vorteil dieses Open-Source-Modells ist die Möglichkeit, es auf eigenen Audiodaten weiter zu verfeinern. Ein Schlagzeuger könnte beispielsweise eigene Schlagzeugaufnahmen nutzen, um neue Beats zu generieren.

    Unterschiede zu Stable Audio

    Während das kommerzielle Produkt Stable Audio in der Lage ist, hochwertige, vollständige Musikstücke mit einer kohärenten musikalischen Struktur von bis zu drei Minuten Länge zu erzeugen, ist Stable Audio Open auf Audiosamples, Soundeffekte und Produktionselemente spezialisiert. Es kann zwar kurze Musikausschnitte generieren, ist jedoch nicht für vollständige Songs, Melodien oder Gesang optimiert. Dieses Open-Source-Modell bietet einen Einblick in die generative KI für Sounddesign und setzt auf eine verantwortungsvolle Entwicklung in Zusammenarbeit mit kreativen Gemeinschaften.

    Technische Details

    Das Modell nutzt eine Kombination aus einem Autoencoder, einem textbasierten T5-Modell zur Textkonditionierung und einem transformerbasierten Diffusionsmodell, das im latenten Raum des Autoencoders arbeitet. Die Modellgewichte sind auf der Plattform Hugging Face verfügbar, die es Entwicklern und Audio-Enthusiasten ermöglicht, das Modell herunterzuladen und zu erkunden.

    Installation und Nutzung

    Die Installation und Nutzung von Stable Audio Open ist denkbar einfach. Mit wenigen Zeilen Code kann das Modell installiert und in Betrieb genommen werden:

    pip install diffusers

    Ein Beispiel für die Nutzung des Modells mit der diffusers-Bibliothek könnte wie folgt aussehen:

    import torch
    import soundfile as sf
    from diffusers import StableAudioPipeline
    
    pipe = StableAudioPipeline.from_pretrained("stabilityai/stable-audio-open-1.0", torch_dtype=torch.float16)
    pipe = pipe.to("cuda")
    
    prompt = "The sound of a hammer hitting a wooden surface."
    negative_prompt = "Low quality."
    
    generator = torch.Generator("cuda").manual_seed(0)
    
    audio = pipe(
        prompt,
        negative_prompt=negative_prompt,
        num_inference_steps=200,
        audio_end_in_s=10.0,
        num_waveforms_per_prompt=3,
        generator=generator,
    ).audios
    
    output = audio[0].T.float().cpu().numpy()
    sf.write("hammer.wav", output, pipe.vae.sampling_rate)

    Training und Datenquellen

    Das neue Modell wurde auf Audiodaten von Freesound und dem Free Music Archive trainiert. Diese Datenquellen ermöglichen es, ein offenes Audiomodell zu erstellen, das die Rechte der Urheber respektiert. Insgesamt wurden 486.492 Audioaufnahmen genutzt, davon 472.618 von Freesound und 13.874 vom Free Music Archive.

    Verantwortungsvolle Entwicklung

    Ein wichtiger Aspekt der Entwicklung von Stable Audio Open ist die verantwortungsvolle Nutzung und Weiterentwicklung. Stability AI hat umfangreiche Analysen durchgeführt, um sicherzustellen, dass keine unautorisierten urheberrechtlich geschützten Musikstücke im Trainingsdatensatz enthalten sind. Dies wurde durch den Einsatz von Klassifikatoren und menschlicher Überprüfung erreicht.

    Fazit und Ausblick

    Stable Audio Open stellt einen bedeutenden Schritt in der Weiterentwicklung generativer Audiotechnologien dar. Es bietet Sounddesignern, Musikern und Entwicklern neue Möglichkeiten, kreative Projekte zu realisieren und die Fähigkeiten von KI im Bereich der Audioproduktion zu erforschen. Stability AI plant, die Forschung und Entwicklung in diesem Bereich fortzusetzen und dabei eng mit kreativen Gemeinschaften zusammenzuarbeiten.

    Um über die Fortschritte auf dem Laufenden zu bleiben, können Interessierte Stability AI auf Twitter, Instagram, LinkedIn folgen und der Discord-Community beitreten.

    Bibliographie

    - Stability AI. (2024). Introducing Stable Audio Open - An Open Source Model for Audio Samples and Sound Design. Retrieved from https://stability.ai/news/introducing-stable-audio-open - Stability AI. (2024). Stable Audio Open — Stability AI. Retrieved from https://www.stableaudio.com/ - Yoach. (2024). Tweet on Stable Audio Open. Retrieved from https://x.com - GitHub. (2024). stable-audio-open-1.0 repository. Retrieved from https://github.com/stabilityai/stable-audio-open-1.0
    Mindverse vs ChatGPT Plus Widget

    Warum Mindverse Studio?

    Entdecken Sie die Vorteile gegenüber ChatGPT Plus

    Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.

    🚀 Mindverse Studio

    Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.

    ChatGPT Plus

    ❌ Kein strukturierter Dokumentenvergleich

    ❌ Keine Bearbeitung im Dokumentkontext

    ❌ Keine Integration von Unternehmenswissen

    VS

    Mindverse Studio

    ✅ Gezielter Dokumentenvergleich mit Custom-Prompts

    ✅ Kontextbewusste Textbearbeitung im Editor

    ✅ Wissensbasierte Analyse & Zusammenfassungen

    📚 Nutzen Sie Ihr internes Wissen – intelligent und sicher

    Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.

    ChatGPT Plus

    ❌ Nur ein Modellanbieter (OpenAI)

    ❌ Keine Modellauswahl pro Use Case

    ❌ Keine zentrale Modellsteuerung für Teams

    VS

    Mindverse Studio

    ✅ Zugriff auf über 50 verschiedene KI-Modelle

    ✅ Modellauswahl pro Prompt oder Assistent

    ✅ Zentrale Steuerung auf Organisationsebene

    🧠 Zugang zu allen führenden KI-Modellen – flexibel & anpassbar

    OpenAI GPT-4: für kreative Texte und allgemeine Anwendungen
    Anthropic Claude: stark in Analyse, Struktur und komplexem Reasoning
    Google Gemini: ideal für multimodale Aufgaben (Text, Bild, Code)
    Eigene Engines: individuell trainiert auf Ihre Daten und Prozesse

    ChatGPT Plus

    ❌ Keine echte Teamkollaboration

    ❌ Keine Rechte- oder Rollenverteilung

    ❌ Keine zentrale Steuerung oder Nachvollziehbarkeit

    VS

    Mindverse Studio

    ✅ Teamübergreifende Bearbeitung in Echtzeit

    ✅ Granulare Rechte- und Freigabeverwaltung

    ✅ Zentrale Steuerung & Transparenz auf Organisationsebene

    👥 Kollaborative KI für Ihr gesamtes Unternehmen

    Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.

    Bereit für den nächsten Schritt?

    Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.

    🎯 Kostenlose Demo buchen

    Wie können wir Ihnen heute helfen?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen