Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Landschaft der künstlichen Intelligenz wird kontinuierlich durch Innovationen geprägt, die die Grenzen des Machbaren verschieben. Eine aktuelle Entwicklung, die in Fachkreisen auf besonderes Interesse stößt, ist die Veröffentlichung des Open-Weight-Modells "Helios" durch ein Forschungsteam von ByteDance, der Peking University und Canva. Dieses Modell demonstriert die Fähigkeit, minutenlange Videos in nahezu Echtzeit zu generieren – ein signifikanter Fortschritt im Bereich der KI-gestützten Videoproduktion.
Die meisten aktuellen Modelle zur Videogenerierung sind darauf beschränkt, Clips von etwa fünf bis zehn Sekunden Länge zu produzieren, deren Rendering oft mehrere Minuten in Anspruch nimmt. Ansätze, die längere Videos in Echtzeit ermöglichen sollen, greifen häufig auf kleinere Modelle mit etwa 1,3 Milliarden Parametern zurück, was jedoch zu Qualitätseinbußen führen kann. Größere Modelle wie Krea-RealTime-14B erreichen auf einer H100-GPU maximal 6,7 FPS und zeigen oft unerwünschte Artefakte, bekannt als "Drifting". Helios, ein Modell mit 14 Milliarden Parametern, überwindet diese Einschränkungen und erreicht auf einer einzelnen NVIDIA H100-GPU eine beeindruckende Rate von 19,5 FPS bei der Erstellung von Videos in Minutenlänge.
Das Modell basiert auf Wan-2.1-14B, welches für die Generierung von fünf Sekunden Video auf einer A100-GPU rund 50 Minuten benötigt. Die Entwicklung von Helios erfolgte in drei Phasen:
In Benchmarks erreichte die destillierte Version von Helios 19,53 FPS, was selbst einige kleinere, destillierte Modelle übertrifft. Zum Vergleich: SANA Video Long, ein Modell mit zwei Milliarden Parametern, erzielt lediglich 13,24 FPS.
Ein zentrales Problem bei der Generierung langer Videos ist der Qualitätsverlust über die Zeit, insbesondere in Bezug auf Farb- und Inhaltskohärenz. Bisherige Modelle versuchten, dies durch komplexe Methoden wie "Self-Forcing" zu beheben, bei denen das Modell seine eigene Ausgabe als Eingabe während des Trainings nutzte. Helios verzichtet auf solche Ansätze. Stattdessen identifizierten die Entwickler drei typische Drifting-Muster und schlugen einfachere Lösungen vor:
In Bezug auf die Videoqualität erhielt Helios für kurze Videos (81 Frames) eine Gesamtbewertung von 6,00, womit es alle destillierten Modelle übertrifft und mit den meisten Basismodellen dieser Größe mithalten kann. Bei langen Videos erreichte es 6,94 und übertraf damit den bisherigen Spitzenreiter Reward Forcing (6,88). Eine Nutzerstudie mit 200 Teilnehmern bestätigte diese Ergebnisse.
Helios zeichnet sich durch eine einheitliche Architektur aus, die Text-zu-Video, Bild-zu-Video und Video-zu-Video in einem einzigen Framework unterstützt. Das Modell wechselt automatisch zwischen den Aufgaben, abhängig vom vorherigen Kontext. Ist der Kontext leer, generiert das Modell aus Text. Ist nur der letzte Frame vorhanden, fungiert es als Bildanimator. Sind mehrere Frames verfügbar, setzt es ein bestehendes Video fort. Benutzer können auch während der Generierung den Text-Prompt ändern; ein sanfter Übergang zwischen altem und neuem Prompt verhindert dabei abrupte visuelle Brüche.
Das Training von Helios erfolgte in drei Stufen mit 800.000 kurzen Videoclips, die jeweils weniger als zehn Sekunden lang waren. Die maximale Auflösung liegt derzeit bei 384 x 640 Pixeln, und an Segmentübergängen können noch Flimmerartefakte auftreten. Da es keinen offenen Benchmark für Echtzeit-Langzeit-Videos gibt, erstellten die Forscher einen eigenen Datensatz namens HeliosBench mit 240 Prompts.
Helios erreicht seine Geschwindigkeitsziele ohne gängige Beschleunigungstricks wie KV-Cache, Sparse Attention oder Quantisierung. Stattdessen komprimiert das Modell die Eingabedaten auf zwei Ebenen:
Eine spezielle Destillationstechnik reduziert zudem die Anzahl der erforderlichen Rechenschritte pro Videosegment von 50 auf 3. Im Gegensatz zu früheren Ansätzen verwendet Helios nur echte Videodaten als Kontext und generiert nur ein Segment pro Trainingsschritt. Ein adversatives Trainingsziel, ähnlich einem GAN (Generative Adversarial Network), steigert die Qualität über die Grenzen des Lehrmodells hinaus.
Dank der Token-Kompression kann Helios die ersten beiden Trainingsstufen auf einer einzelnen GPU durchführen. Die dritte Stufe erfordert den gleichzeitigen Betrieb von vier vollständigen Modellen, die jedoch dank verschiedener Speicheroptimierungen in 80 GB GPU-Speicher passen. Kundenspezifische Compute-Kernel für gängige Operationen beschleunigen Training und Inferenz um etwa 14 Prozent im Vergleich zur Standardimplementierung.
Helios ist als Open-Weight-Modell auf GitHub und Hugging Face verfügbar, wo auch eine Live-Demo angeboten wird. Generierte Videobeispiele sind auf der Projektseite zu finden. Das Projekt dient ausschließlich Forschungszwecken und ist nicht für die Integration in ByteDance-Produkte vorgesehen. Es sei darauf hingewiesen, dass ByteDance kürzlich mit Seedance 2.0, einem multimodalen Videogenerierungsmodell, für Aufsehen sorgte. Seedance 2.0 benötigt deutlich mehr Rechenleistung und ist auf 15-Sekunden-Clips beschränkt, liefert aber eine höhere visuelle Qualität, was in Hollywood Bedenken hinsichtlich potenzieller Urheberrechtsverletzungen aufkommen ließ.
Die Entwicklungen rund um Helios zeigen das Potenzial von KI, die Videoproduktion zu revolutionieren. Die Fähigkeit, längere Videos in nahezu Echtzeit und mit hoher Qualität zu generieren, könnte neue Möglichkeiten für Kreative und Unternehmen eröffnen, die auf schnelle und effiziente Content-Erstellung angewiesen sind. Die offene Verfügbarkeit des Modells fördert zudem die weitere Forschung und Entwicklung in diesem dynamischen Feld.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen