Neuer Ansatz zur effizienten Videogenerierung mit ReHyAt

Kategorien:

No items found.

Freigegeben:

January 11, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

ReHyAt ist ein neuer Ansatz zur Videogenerierung, der die Skalierbarkeit und Effizienz von Video-Diffusion-Transformern verbessert.
Das System kombiniert Softmax- und lineare Aufmerksamkeitsmechanismen, um sowohl detaillierte lokale als auch effiziente globale Abhängigkeiten zu modellieren.
ReHyAt ermöglicht die Generierung von Videos beliebiger Länge mit konstantem Speicherverbrauch und linearer Rechenkomplexität, ideal für Edge-Geräte.
Durch einen zweistufigen Trainingsprozess, der Destillation und Feintuning umfasst, werden hohe Videoqualität und geringe Trainingskosten erreicht.
Experimente zeigen, dass ReHyAt eine wettbewerbsfähige Videoqualität liefert und gleichzeitig den Rechenaufwand im Vergleich zu herkömmlichen Ansätzen erheblich reduziert.

Die Generierung hochwertiger Videos durch künstliche Intelligenz hat in den letzten Jahren erhebliche Fortschritte gemacht. Insbesondere Video-Diffusion-Modelle, die auf Transformer-Architekturen basieren, haben neue Maßstäbe gesetzt. Diese Fortschritte gehen jedoch häufig mit einer hohen rechnerischen Komplexität einher, insbesondere bei längeren Videosequenzen. Eine aktuelle Entwicklung, bekannt als ReHyAt (Recurrent Hybrid Attention for Video Diffusion Transformers), zielt darauf ab, diese Herausforderungen durch einen innovativen Ansatz zu adressieren und die Skalierbarkeit sowie Effizienz der Videogenerierung zu verbessern.

Die Herausforderung der Skalierbarkeit bei Video-Diffusion-Modellen

Moderne Video-Diffusion-Modelle, die auf Transformer-Architekturen aufbauen, erzielen exzellente Ergebnisse in der Videogenerierung. Ein zentrales Problem dieser Ansätze ist jedoch die quadratische Komplexität des Aufmerksamkeitsmechanismus in Bezug auf die Sequenzlänge. Dies bedeutet, dass der Rechenaufwand und der Speicherbedarf exponentiell mit der Länge des zu generierenden Videos ansteigen. Für längere Videos oder Anwendungen auf Geräten mit begrenzten Ressourcen, wie beispielsweise mobilen Endgeräten, stellt dies eine erhebliche Einschränkung dar.

Softmax- vs. lineare Aufmerksamkeit

Der traditionelle Softmax-Aufmerksamkeitsmechanismus ist zwar sehr ausdrucksstark und in der Lage, feingranulare Abhängigkeiten zu modellieren, aber eben auch rechenintensiv. Lineare Aufmerksamkeitsmechanismen bieten eine effizientere Alternative, da ihre Komplexität linear zur Sequenzlänge skaliert und sie bei rekursiver Formulierung einen konstanten Speicherverbrauch ermöglichen. Der Nachteil linearer Aufmerksamkeit liegt jedoch in ihrer geringeren Ausdruckskraft, was oft zu einer verminderten Qualität der generierten Inhalte führt. Bisherige hybride Ansätze, die beide Mechanismen kombinieren, konnten die quadratische Komplexität nicht vollständig überwinden und lieferten somit keine Lösung für das Skalierbarkeitsproblem.

ReHyAt: Ein hybrider Ansatz für effiziente Videogenerierung

ReHyAt, entwickelt von Mohsen Ghafoorian und Amirhossein Habibian, adressiert die genannten Limitierungen durch einen rekurrenten hybriden Aufmerksamkeitsmechanismus. Die Kernidee besteht darin, die Vorteile von Softmax-Aufmerksamkeit für kritische, lokale Abhängigkeiten zu nutzen und gleichzeitig lineare Aufmerksamkeit für globale, effiziente Interaktionen einzusetzen. Dies ermöglicht eine Modellierung von sowohl Langzeit- als auch hochpräzisen lokalen Abhängigkeiten bei gleichzeitiger linearer Effizienz.

Temporär segmentierte hybride Aufmerksamkeit

Ein wesentlicher Bestandteil von ReHyAt ist das Konzept der temporär segmentierten hybriden Aufmerksamkeit mit überlappenden Segmenten (Chunks). Dabei wird die Berechnung der Aufmerksamkeit in zeitliche Blöcke unterteilt. Innerhalb dieser Blöcke wird Softmax-Aufmerksamkeit angewendet, um präzisere Abhängigkeiten zu erfassen. Für alle anderen Tokens wird lineare Aufmerksamkeit genutzt. Überlappende Segmente tragen dazu bei, die zeitliche Kohärenz zwischen den Videoabschnitten zu gewährleisten und unerwünschte Artefakte zu minimieren.

Rekurrente Formulierung und konstante Speichernutzung

Ein entscheidender Vorteil von ReHyAt ist die Möglichkeit, den hybriden Aufmerksamkeitsmechanismus als rekurrentes neuronales Netz (RNN) zu formulieren. Diese Rekurrenz ermöglicht die Generierung von Videos beliebiger Länge mit konstantem Speicherverbrauch und linearer Rechenkomplexität. Dies ist von besonderer Bedeutung für die Bereitstellung von Videogenerierungsfunktionen auf Edge-Geräten, wo Speicherkapazität und Rechenleistung begrenzt sind.

Zweistufiger Trainingsprozess: Destillation und Feintuning

Angesichts des enormen Rechenaufwands, der für das Training von hochmodernen Video-Diffusion-Modellen erforderlich ist, setzt ReHyAt auf einen zweistufigen Trainingsprozess, um bestehende Modelle effizient zu nutzen:

1. Aufmerksamkeits-Destillation: In einem ersten Schritt wird ein bereits trainiertes, bidirektionales Softmax-basiertes Modell (Lehrer-Modell) in ein kausales hybrides Aufmerksamkeits-Modell (Schüler-Modell) destilliert. Während dieser Phase werden nur die Parameter für die Kernel-Feature-Maps der linearen Aufmerksamkeit trainiert. Ziel ist es, die linearen Aufmerksamkeitsmechanismen so anzupassen, dass sie die Abhängigkeiten des Softmax-Lehrer-Modells approximieren. Dieser Schritt erfordert keine neuen Prompt-/Video-Paare und reduziert die Trainingskosten erheblich.

2. Leichtgewichtiges Feintuning: Nach der Destillation wird das gesamte DiT-Modell mit einer moderaten Anzahl von Prompt-/Video-Paaren feingetunt. Dieser Schritt stellt sicher, dass die generierte Videoqualität optimiert wird, insbesondere im Hinblick auf die Übergänge zwischen den Segmenten. Die Trainingskosten für diesen Feintuning-Schritt sind gering, typischerweise weniger als 200 GPU-Stunden, was eine Reduzierung um zwei Größenordnungen im Vergleich zu anderen Ansätzen darstellt.

Evaluierung und Ergebnisse

Die Leistungsfähigkeit von ReHyAt wurde durch umfangreiche Experimente evaluiert, unter anderem auf den Benchmarks VBench und VBench-2.0, sowie durch eine Studie zur menschlichen Präferenz. Als Basismodell wurde das Wan2.1 1.3B-Modell verwendet.

Wettbewerbsfähige Qualität bei reduziertem Rechenaufwand

Die Ergebnisse zeigen, dass ReHyAt eine mit den besten effizienten Video-Diffusion-Modellen vergleichbare Videoqualität erreicht. Gleichzeitig wird der Rechenaufwand erheblich reduziert. Beispielsweise konnte ReHyAt im Vergleich zu Flash-Attention, das in Wan2.1 verwendet wird, eine bis zu 4-fache Einsparung an Rechenoperationen erzielen. Auf mobilen Geräten zeigte sich, dass ReHyAt die Latenzzeiten deutlich senkt und als einziger Ansatz Videos von über 10 Sekunden Länge ohne Speicherüberlauf generieren kann. Im Vergleich zu Flash-Attention war ReHyAt bis zu 16-mal schneller bei der Generierung von 121 Frames.

Speichereffizienz

Besonders hervorzuheben ist die Speichereffizienz von ReHyAt. Die rekurrente hybride Aufmerksamkeit führt zu einem deutlich geringeren Speicherverbrauch, beispielsweise bis zu 11-mal effizienter in Bezug auf den gesamten Speicher-Lese-/Schreibvorgang bei 121 Frames im Vergleich zu Flash-Attention. Der Spitzen-Speicherverbrauch bleibt dabei unabhängig von der Videolänge konstant.

Ablationsstudien

Ablationsstudien untersuchten den Einfluss verschiedener Parameter wie die Anzahl der ReHyAt-Blöcke, die Segmentgröße (Tc) und die Größe der Segmentüberlappung (To). Es zeigte sich, dass eine Erhöhung der Segmentgröße die Modellqualität tendenziell verbessert, wobei der größte Qualitätssprung beim Übergang von einer rein räumlichen zu einer raum-zeitlichen Softmax-Aufmerksamkeit auftrat. Die Einführung von überlappenden Segmenten führte ebenfalls zu einer signifikanten Qualitätsverbesserung, insbesondere im Hinblick auf die Konsistenz des Subjekts, was die Bedeutung dieser Mechanismen für die Reduzierung temporaler Inkohärenzen unterstreicht.

Die Kausalität des Modells, eine Voraussetzung für die RNN-Formulierung, zeigte keinen nachteiligen Einfluss auf die Qualität, während sie die Implementierung konstanter Speicher- und linearer Rechenkomplexität ermöglicht.

Fazit und Ausblick

ReHyAt stellt einen vielversprechenden Fortschritt in der Videogenerierung dar, indem es die Skalierbarkeit von Video-Diffusion-Transformern durch einen rekurrenten hybriden Aufmerksamkeitsmechanismus erheblich verbessert. Der Ansatz ermöglicht die Generierung langer Videos mit konstantem Speicherverbrauch und linearer Rechenkomplexität, was ihn besonders für Anwendungen auf mobilen Geräten attraktiv macht. Die Kombination aus Softmax- und linearer Aufmerksamkeit, zusammen mit einem effizienten zweistufigen Trainingsprozess, führt zu einer hohen Videoqualität bei deutlich reduzierten Trainingskosten. Obwohl ReHyAt bereits starke Ergebnisse liefert, verbleiben bei einigen Videos, insbesondere mit den effizientesten Varianten, geringfügige temporale Inkonsistenzen, die zukünftige Forschungsanstrengungen erfordern könnten.

Für Unternehmen, die im Bereich der KI-gestützten Videoproduktion und -verarbeitung tätig sind, bietet ReHyAt eine potenzielle Lösung, um die Effizienz und Reichweite ihrer Anwendungen zu erweitern. Die Fähigkeit, hochwertige Videos auf ressourcenbeschränkten Geräten zu generieren, eröffnet neue Möglichkeiten für mobile Anwendungen, Echtzeit-Videobearbeitung und die Schaffung immersiver digitaler Erlebnisse.

Bibliography - Ghafoorian, M., & Habibian, A. (2026). ReHyAt: Recurrent Hybrid Attention for Video Diffusion Transformers. arXiv preprint arXiv:2601.04342. - Hugging Face. (n.d.). Daily Papers - Hugging Face. https://huggingface.co/papers?q=Recurrent%20Hybrid%20Atten - Qualcomm AI Research. (n.d.). ReHyAt: Recurrent Hybrid Attention for Video Diffusion Transformers. https://qualcomm-ai-research.github.io/rehyat/