Neue Fortschritte in der Echtzeit-Videogenerierung: ByteDance präsentiert das Helios-Modell

Kategorien:

No items found.

Freigegeben:

March 8, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Der schnelle Überblick:

ByteDance, Peking University und Canva haben das Open-Weight-Modell "Helios" vorgestellt, das die Echtzeit-Videogenerierung von Minuten-langen Inhalten ermöglicht.
Helios ist das erste 14B-Videomodell, das auf einer einzelnen H100-GPU 19,5 Bilder pro Sekunde (FPS) erreicht und dabei Videos von Minutenlänge produziert.
Das Modell vermeidet gängige Beschleunigungstechniken wie KV-Cache oder Sparse Attention und setzt stattdessen auf aggressive Datenkompression und eine dreistufige Trainingspipeline.
Helios kann Text-zu-Video, Bild-zu-Video und Video-zu-Video in einem einzigen Framework verarbeiten und passt sich dynamisch an den Kontext an.
Das Team hat einen eigenen Benchmark namens "HeliosBench" entwickelt, um die Leistung bei der Echtzeit-Langzeit-Videogenerierung zu evaluieren.
Obwohl die Forschungsergebnisse vielversprechend sind, ist noch unklar, wie sich Helios in der breiteren Praxis und auf unterschiedlicher Hardware bewähren wird.

Revolution in der Videogenerierung: ByteDance's Helios-Modell erreicht Echtzeit-Fähigkeit für lange Videos

Die Landschaft der künstlichen Intelligenz wird kontinuierlich durch Innovationen geprägt, die die Grenzen des Machbaren verschieben. Eine aktuelle Entwicklung, die in Fachkreisen auf besonderes Interesse stößt, ist die Veröffentlichung des Open-Weight-Modells "Helios" durch ein Forschungsteam von ByteDance, der Peking University und Canva. Dieses Modell demonstriert die Fähigkeit, minutenlange Videos in nahezu Echtzeit zu generieren – ein signifikanter Fortschritt im Bereich der KI-gestützten Videoproduktion.

Helios: Eine neue Dimension der Effizienz und Qualität

Die meisten aktuellen Modelle zur Videogenerierung sind darauf beschränkt, Clips von etwa fünf bis zehn Sekunden Länge zu produzieren, deren Rendering oft mehrere Minuten in Anspruch nimmt. Ansätze, die längere Videos in Echtzeit ermöglichen sollen, greifen häufig auf kleinere Modelle mit etwa 1,3 Milliarden Parametern zurück, was jedoch zu Qualitätseinbußen führen kann. Größere Modelle wie Krea-RealTime-14B erreichen auf einer H100-GPU maximal 6,7 FPS und zeigen oft unerwünschte Artefakte, bekannt als "Drifting". Helios, ein Modell mit 14 Milliarden Parametern, überwindet diese Einschränkungen und erreicht auf einer einzelnen NVIDIA H100-GPU eine beeindruckende Rate von 19,5 FPS bei der Erstellung von Videos in Minutenlänge.

Das Modell basiert auf Wan-2.1-14B, welches für die Generierung von fünf Sekunden Video auf einer A100-GPU rund 50 Minuten benötigt. Die Entwicklung von Helios erfolgte in drei Phasen:

Helios-Base: Fokus auf die Architektur und Techniken zur Vermeidung von Drifting.
Helios-Mid: Einführung von Token-Kompression, wodurch eine Geschwindigkeit von 1,05 FPS erreicht wird.
Helios-Distilled: Maximierung der Geschwindigkeit durch Reduzierung der Rechenschritte auf lediglich drei.

In Benchmarks erreichte die destillierte Version von Helios 19,53 FPS, was selbst einige kleinere, destillierte Modelle übertrifft. Zum Vergleich: SANA Video Long, ein Modell mit zwei Milliarden Parametern, erzielt lediglich 13,24 FPS.

Qualität und Stabilität über lange Sequenzen

Ein zentrales Problem bei der Generierung langer Videos ist der Qualitätsverlust über die Zeit, insbesondere in Bezug auf Farb- und Inhaltskohärenz. Bisherige Modelle versuchten, dies durch komplexe Methoden wie "Self-Forcing" zu beheben, bei denen das Modell seine eigene Ausgabe als Eingabe während des Trainings nutzte. Helios verzichtet auf solche Ansätze. Stattdessen identifizierten die Entwickler drei typische Drifting-Muster und schlugen einfachere Lösungen vor:

Relative Positionskodierung: Verhindert, dass das Modell bei langen Videos unbekannte Positionsindizes trifft, was repetitive Bewegungen verursachen würde.
Erster-Frame-Anker: Hält den Anfangsframe stets im Speicher, um dem Modell einen visuellen Referenzpunkt zu bieten und Farbverschiebungen vorzubeugen.
Gezielte Störungssimulation: Macht das Modell während des Trainings widerstandsfähiger gegen eigene Fehler, die sich sonst im Laufe der Zeit verstärken könnten.

In Bezug auf die Videoqualität erhielt Helios für kurze Videos (81 Frames) eine Gesamtbewertung von 6,00, womit es alle destillierten Modelle übertrifft und mit den meisten Basismodellen dieser Größe mithalten kann. Bei langen Videos erreichte es 6,94 und übertraf damit den bisherigen Spitzenreiter Reward Forcing (6,88). Eine Nutzerstudie mit 200 Teilnehmern bestätigte diese Ergebnisse.

Eine unifizierte Architektur für vielfältige Anwendungen

Helios zeichnet sich durch eine einheitliche Architektur aus, die Text-zu-Video, Bild-zu-Video und Video-zu-Video in einem einzigen Framework unterstützt. Das Modell wechselt automatisch zwischen den Aufgaben, abhängig vom vorherigen Kontext. Ist der Kontext leer, generiert das Modell aus Text. Ist nur der letzte Frame vorhanden, fungiert es als Bildanimator. Sind mehrere Frames verfügbar, setzt es ein bestehendes Video fort. Benutzer können auch während der Generierung den Text-Prompt ändern; ein sanfter Übergang zwischen altem und neuem Prompt verhindert dabei abrupte visuelle Brüche.

Das Training von Helios erfolgte in drei Stufen mit 800.000 kurzen Videoclips, die jeweils weniger als zehn Sekunden lang waren. Die maximale Auflösung liegt derzeit bei 384 x 640 Pixeln, und an Segmentübergängen können noch Flimmerartefakte auftreten. Da es keinen offenen Benchmark für Echtzeit-Langzeit-Videos gibt, erstellten die Forscher einen eigenen Datensatz namens HeliosBench mit 240 Prompts.

Aggressive Kompression senkt Rechenkosten

Helios erreicht seine Geschwindigkeitsziele ohne gängige Beschleunigungstricks wie KV-Cache, Sparse Attention oder Quantisierung. Stattdessen komprimiert das Modell die Eingabedaten auf zwei Ebenen:

Hierarchische Speicherstruktur: Die Videohistorie wird in drei Zeitebenen unterteilt. Neuere Frames erhalten eine geringere Kompression, während ältere Frames stärker komprimiert werden. Dies reduziert die Anzahl der zu verarbeitenden Token um den Faktor acht.
Mehrstufiger Sampling-Prozess: Token für das zu generierende Videosegment werden um den Faktor 2,29 reduziert. Frühe Schritte laufen mit geringerer Auflösung, spätere Schritte füllen feine Details auf. Zusammen senken diese Techniken die Rechenkosten auf das Niveau der Generierung eines einzelnen Bildes.

Eine spezielle Destillationstechnik reduziert zudem die Anzahl der erforderlichen Rechenschritte pro Videosegment von 50 auf 3. Im Gegensatz zu früheren Ansätzen verwendet Helios nur echte Videodaten als Kontext und generiert nur ein Segment pro Trainingsschritt. Ein adversatives Trainingsziel, ähnlich einem GAN (Generative Adversarial Network), steigert die Qualität über die Grenzen des Lehrmodells hinaus.

Dank der Token-Kompression kann Helios die ersten beiden Trainingsstufen auf einer einzelnen GPU durchführen. Die dritte Stufe erfordert den gleichzeitigen Betrieb von vier vollständigen Modellen, die jedoch dank verschiedener Speicheroptimierungen in 80 GB GPU-Speicher passen. Kundenspezifische Compute-Kernel für gängige Operationen beschleunigen Training und Inferenz um etwa 14 Prozent im Vergleich zur Standardimplementierung.

Verfügbarkeit und zukünftige Implikationen

Helios ist als Open-Weight-Modell auf GitHub und Hugging Face verfügbar, wo auch eine Live-Demo angeboten wird. Generierte Videobeispiele sind auf der Projektseite zu finden. Das Projekt dient ausschließlich Forschungszwecken und ist nicht für die Integration in ByteDance-Produkte vorgesehen. Es sei darauf hingewiesen, dass ByteDance kürzlich mit Seedance 2.0, einem multimodalen Videogenerierungsmodell, für Aufsehen sorgte. Seedance 2.0 benötigt deutlich mehr Rechenleistung und ist auf 15-Sekunden-Clips beschränkt, liefert aber eine höhere visuelle Qualität, was in Hollywood Bedenken hinsichtlich potenzieller Urheberrechtsverletzungen aufkommen ließ.

Die Entwicklungen rund um Helios zeigen das Potenzial von KI, die Videoproduktion zu revolutionieren. Die Fähigkeit, längere Videos in nahezu Echtzeit und mit hoher Qualität zu generieren, könnte neue Möglichkeiten für Kreative und Unternehmen eröffnen, die auf schnelle und effiziente Content-Erstellung angewiesen sind. Die offene Verfügbarkeit des Modells fördert zudem die weitere Forschung und Entwicklung in diesem dynamischen Feld.

Bibliographie

- "Bytedance's open-weight Helios model brings minute-long AI video generation close to real time" – The Decoder - "[2603.04379] Helios: Real Real-Time Long Video Generation Model" – arXiv - "Helios: A Real-Time Long Video Generation Model That Skips Every Shortcut" – WaveSpeedAI Blog - "Helios: Real Time Long Video Generation at 19.5 FPS on a Single GPU" – AI FILMS Studio - "a 14B video generation model that runs at 19.5 FPS on a single H100 GPU. Real-time. Minute-long videos. Open source." – LinkedIn Post von Pawel Bulowski - "Helios (ByteDance, Canva, Peking Univ.): Real Real-Time Long Video Generation Model, Open-source" – Threads Post von won.wizard - "ByteDance Open-Sources Alive Video Generation Model: 12B Parameters, Runs on Consumer GPUs" – Medium Artikel von AI Engineering - "PKU-YuanGroup/Helios" – GitHub Repository - "Helios: Real Real-Time Long Video Generation Model" – alphaXiv - "Helios: Real Real-Time Long Video Generation Model" – Projektseite pku-yuangroup.github.io/Helios-Page