Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Die Welt der künstlichen Intelligenz (KI) entwickelt sich rasant, und ein Bereich, der in letzter Zeit erhebliche Fortschritte gemacht hat, ist die Text-to-Video-Generierung. Mit Allegro, einem Open-Source-Modell von Rhymes AI, wird die Erstellung hochwertiger Videos aus einfachen Texteingaben für ein breiteres Publikum zugänglich. Dieser Artikel beleuchtet die Funktionalitäten, die Technologie und die Zukunftsaussichten dieses innovativen Tools.
Allegro ermöglicht die Generierung von sechssekündigen Videos mit einer Auflösung von 720p und 15 Bildern pro Sekunde, basierend auf textuellen Beschreibungen. Die Qualität der generierten Videos erlaubt die Darstellung vielfältiger Szenarien, von Nahaufnahmen von Personen und Tieren bis hin zu komplexen, dynamischen Szenen. Die Vielseitigkeit des Modells bietet Nutzern die Flexibilität, kreative Ideen innerhalb des Sechsekundenformats zu erforschen.
Mehrere Schlüsselfunktionen zeichnen Allegro aus:
- Open Source: Sowohl die Modellgewichte als auch der Code sind frei verfügbar und unter der Apache 2.0 Lizenz veröffentlicht. - Vielseitige Content-Erstellung: Das Modell kann eine breite Palette von Inhalten generieren, von Nahaufnahmen von Menschen und Tieren bis hin zu diversen dynamischen Szenen. - Hochwertige Ausgabe: Allegro erzeugt detaillierte 6-Sekunden-Videos mit 15 FPS und einer Auflösung von 720x1280. Mittels EMA-VFI kann die Bildrate auf 30 FPS interpoliert werden. - Kompakt und effizient: Das Modell verwendet eine VideoVAE mit 175 Millionen Parametern und eine VideoDiT mit 2,8 Milliarden Parametern. Es unterstützt verschiedene Genauigkeiten (FP32, BF16, FP16) und benötigt im BF16-Modus mit CPU-Offloading 9,3 GB GPU-Speicher. Die Kontextlänge beträgt 79,2k, was 88 Frames entspricht.Die Leistungsfähigkeit von Allegro basiert auf drei Kerntechnologien:
1. Verarbeitung großer Videodatenmengen: Um ein Modell zu trainieren, das vielfältige und realistische Videos generieren kann, ist die Verarbeitung enormer Datenmengen erforderlich. Rhymes AI hat dazu systematische Datenverarbeitungs- und Filterpipelines entwickelt, um Trainingsvideos aus Rohdaten zu extrahieren. Ein strukturiertes Datensystem ermöglicht die mehrdimensionale Klassifizierung und Clusterbildung der Daten, was das Modelltraining und die Feinabstimmung für verschiedene Stufen und Zwecke erleichtert.
2. Komprimierung von Videos in visuelle Token: Die Verwaltung der großen Datenmengen bei der Videogenerierung stellt eine Herausforderung dar. Allegro komprimiert Rohvideos in kleinere visuelle Token, wobei wichtige Details erhalten bleiben. Dies ermöglicht eine flüssigere und effizientere Videogenerierung. Ein speziell entwickelter Video Variational Autoencoder (VideoVAE) kodiert Rohvideos in einen räumlich-zeitlichen latenten Raum. Der VideoVAE basiert auf einer vortrainierten Bild-VAE, die um räumlich-zeitliche Modellierungsschichten erweitert wurde.
3. Skalierung des Video Diffusion Transformer: Das Herzstück von Allegro ist die skalierbare Diffusion Transformer-Architektur. Diese verwendet Diffusionsmodelle, um hochauflösende Videoframes zu generieren und so Qualität und flüssige Bewegungen zu gewährleisten. Das Backbone-Netzwerk von Allegro basiert auf der DiT-Architektur (Diffusion Transformer) mit 3D RoPE-Positionseinbettung und vollständiger 3D-Aufmerksamkeit. Diese Architektur erfasst effizient räumliche und zeitliche Beziehungen in Videodaten.
Allegro setzt vielfältige Textbeschreibungen in kurze Videoclips um. Beispielsweise generiert es zu der Eingabe "Rosa Fische schwimmen im Meer" ein Video, das die flüssige Bewegung der farbenfrohen Fische im Wasser darstellt. Bei der Eingabe "Ein Astronaut reitet auf einem Pferd" erzeugt Allegro eine fantastischere Szene mit einer Figur im Raumanzug auf einem Pferd vor einem staubigen Hintergrund. Diese Beispiele demonstrieren die Bandbreite von Allegro bei der Visualisierung sowohl natürlicher als auch imaginärer Szenarien.
Rhymes AI arbeitet aktiv an der Weiterentwicklung von Allegro. Geplante Funktionen umfassen die Bild-zu-Video-Generierung, Bewegungssteuerung und die Unterstützung für längere, narrativebasierte Videos im Storyboard-Stil.
Bibliographie: https://twitter.com/cocktailpeanut/status/1850654919357018281 https://github.com/rhymes-ai/Allegro https://www.youtube.com/watch?v=0tsLqNXQ5Mk https://huggingface.co/blog/RhymesAI/allegro https://www.aibase.com/tool/33907 https://www.youtube.com/watch?v=VmQuIbKJqewEntdecken Sie die Vorteile gegenüber ChatGPT Plus
Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.
Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.
❌ Kein strukturierter Dokumentenvergleich
❌ Keine Bearbeitung im Dokumentkontext
❌ Keine Integration von Unternehmenswissen
✅ Gezielter Dokumentenvergleich mit Custom-Prompts
✅ Kontextbewusste Textbearbeitung im Editor
✅ Wissensbasierte Analyse & Zusammenfassungen
Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.
❌ Nur ein Modellanbieter (OpenAI)
❌ Keine Modellauswahl pro Use Case
❌ Keine zentrale Modellsteuerung für Teams
✅ Zugriff auf über 50 verschiedene KI-Modelle
✅ Modellauswahl pro Prompt oder Assistent
✅ Zentrale Steuerung auf Organisationsebene
❌ Keine echte Teamkollaboration
❌ Keine Rechte- oder Rollenverteilung
❌ Keine zentrale Steuerung oder Nachvollziehbarkeit
✅ Teamübergreifende Bearbeitung in Echtzeit
✅ Granulare Rechte- und Freigabeverwaltung
✅ Zentrale Steuerung & Transparenz auf Organisationsebene
Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.
Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.
🎯 Kostenlose Demo buchenLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen