Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Generierung hochwertiger Videos durch künstliche Intelligenz hat in den letzten Jahren erhebliche Fortschritte gemacht. Insbesondere Video-Diffusion-Modelle, die auf Transformer-Architekturen basieren, haben neue Maßstäbe gesetzt. Diese Fortschritte gehen jedoch häufig mit einer hohen rechnerischen Komplexität einher, insbesondere bei längeren Videosequenzen. Eine aktuelle Entwicklung, bekannt als ReHyAt (Recurrent Hybrid Attention for Video Diffusion Transformers), zielt darauf ab, diese Herausforderungen durch einen innovativen Ansatz zu adressieren und die Skalierbarkeit sowie Effizienz der Videogenerierung zu verbessern.
Moderne Video-Diffusion-Modelle, die auf Transformer-Architekturen aufbauen, erzielen exzellente Ergebnisse in der Videogenerierung. Ein zentrales Problem dieser Ansätze ist jedoch die quadratische Komplexität des Aufmerksamkeitsmechanismus in Bezug auf die Sequenzlänge. Dies bedeutet, dass der Rechenaufwand und der Speicherbedarf exponentiell mit der Länge des zu generierenden Videos ansteigen. Für längere Videos oder Anwendungen auf Geräten mit begrenzten Ressourcen, wie beispielsweise mobilen Endgeräten, stellt dies eine erhebliche Einschränkung dar.
Der traditionelle Softmax-Aufmerksamkeitsmechanismus ist zwar sehr ausdrucksstark und in der Lage, feingranulare Abhängigkeiten zu modellieren, aber eben auch rechenintensiv. Lineare Aufmerksamkeitsmechanismen bieten eine effizientere Alternative, da ihre Komplexität linear zur Sequenzlänge skaliert und sie bei rekursiver Formulierung einen konstanten Speicherverbrauch ermöglichen. Der Nachteil linearer Aufmerksamkeit liegt jedoch in ihrer geringeren Ausdruckskraft, was oft zu einer verminderten Qualität der generierten Inhalte führt. Bisherige hybride Ansätze, die beide Mechanismen kombinieren, konnten die quadratische Komplexität nicht vollständig überwinden und lieferten somit keine Lösung für das Skalierbarkeitsproblem.
ReHyAt, entwickelt von Mohsen Ghafoorian und Amirhossein Habibian, adressiert die genannten Limitierungen durch einen rekurrenten hybriden Aufmerksamkeitsmechanismus. Die Kernidee besteht darin, die Vorteile von Softmax-Aufmerksamkeit für kritische, lokale Abhängigkeiten zu nutzen und gleichzeitig lineare Aufmerksamkeit für globale, effiziente Interaktionen einzusetzen. Dies ermöglicht eine Modellierung von sowohl Langzeit- als auch hochpräzisen lokalen Abhängigkeiten bei gleichzeitiger linearer Effizienz.
Ein wesentlicher Bestandteil von ReHyAt ist das Konzept der temporär segmentierten hybriden Aufmerksamkeit mit überlappenden Segmenten (Chunks). Dabei wird die Berechnung der Aufmerksamkeit in zeitliche Blöcke unterteilt. Innerhalb dieser Blöcke wird Softmax-Aufmerksamkeit angewendet, um präzisere Abhängigkeiten zu erfassen. Für alle anderen Tokens wird lineare Aufmerksamkeit genutzt. Überlappende Segmente tragen dazu bei, die zeitliche Kohärenz zwischen den Videoabschnitten zu gewährleisten und unerwünschte Artefakte zu minimieren.
Ein entscheidender Vorteil von ReHyAt ist die Möglichkeit, den hybriden Aufmerksamkeitsmechanismus als rekurrentes neuronales Netz (RNN) zu formulieren. Diese Rekurrenz ermöglicht die Generierung von Videos beliebiger Länge mit konstantem Speicherverbrauch und linearer Rechenkomplexität. Dies ist von besonderer Bedeutung für die Bereitstellung von Videogenerierungsfunktionen auf Edge-Geräten, wo Speicherkapazität und Rechenleistung begrenzt sind.
Angesichts des enormen Rechenaufwands, der für das Training von hochmodernen Video-Diffusion-Modellen erforderlich ist, setzt ReHyAt auf einen zweistufigen Trainingsprozess, um bestehende Modelle effizient zu nutzen:
1. Aufmerksamkeits-Destillation: In einem ersten Schritt wird ein bereits trainiertes, bidirektionales Softmax-basiertes Modell (Lehrer-Modell) in ein kausales hybrides Aufmerksamkeits-Modell (Schüler-Modell) destilliert. Während dieser Phase werden nur die Parameter für die Kernel-Feature-Maps der linearen Aufmerksamkeit trainiert. Ziel ist es, die linearen Aufmerksamkeitsmechanismen so anzupassen, dass sie die Abhängigkeiten des Softmax-Lehrer-Modells approximieren. Dieser Schritt erfordert keine neuen Prompt-/Video-Paare und reduziert die Trainingskosten erheblich.
2. Leichtgewichtiges Feintuning: Nach der Destillation wird das gesamte DiT-Modell mit einer moderaten Anzahl von Prompt-/Video-Paaren feingetunt. Dieser Schritt stellt sicher, dass die generierte Videoqualität optimiert wird, insbesondere im Hinblick auf die Übergänge zwischen den Segmenten. Die Trainingskosten für diesen Feintuning-Schritt sind gering, typischerweise weniger als 200 GPU-Stunden, was eine Reduzierung um zwei Größenordnungen im Vergleich zu anderen Ansätzen darstellt.
Die Leistungsfähigkeit von ReHyAt wurde durch umfangreiche Experimente evaluiert, unter anderem auf den Benchmarks VBench und VBench-2.0, sowie durch eine Studie zur menschlichen Präferenz. Als Basismodell wurde das Wan2.1 1.3B-Modell verwendet.
Die Ergebnisse zeigen, dass ReHyAt eine mit den besten effizienten Video-Diffusion-Modellen vergleichbare Videoqualität erreicht. Gleichzeitig wird der Rechenaufwand erheblich reduziert. Beispielsweise konnte ReHyAt im Vergleich zu Flash-Attention, das in Wan2.1 verwendet wird, eine bis zu 4-fache Einsparung an Rechenoperationen erzielen. Auf mobilen Geräten zeigte sich, dass ReHyAt die Latenzzeiten deutlich senkt und als einziger Ansatz Videos von über 10 Sekunden Länge ohne Speicherüberlauf generieren kann. Im Vergleich zu Flash-Attention war ReHyAt bis zu 16-mal schneller bei der Generierung von 121 Frames.
Besonders hervorzuheben ist die Speichereffizienz von ReHyAt. Die rekurrente hybride Aufmerksamkeit führt zu einem deutlich geringeren Speicherverbrauch, beispielsweise bis zu 11-mal effizienter in Bezug auf den gesamten Speicher-Lese-/Schreibvorgang bei 121 Frames im Vergleich zu Flash-Attention. Der Spitzen-Speicherverbrauch bleibt dabei unabhängig von der Videolänge konstant.
Ablationsstudien untersuchten den Einfluss verschiedener Parameter wie die Anzahl der ReHyAt-Blöcke, die Segmentgröße (Tc) und die Größe der Segmentüberlappung (To). Es zeigte sich, dass eine Erhöhung der Segmentgröße die Modellqualität tendenziell verbessert, wobei der größte Qualitätssprung beim Übergang von einer rein räumlichen zu einer raum-zeitlichen Softmax-Aufmerksamkeit auftrat. Die Einführung von überlappenden Segmenten führte ebenfalls zu einer signifikanten Qualitätsverbesserung, insbesondere im Hinblick auf die Konsistenz des Subjekts, was die Bedeutung dieser Mechanismen für die Reduzierung temporaler Inkohärenzen unterstreicht.
Die Kausalität des Modells, eine Voraussetzung für die RNN-Formulierung, zeigte keinen nachteiligen Einfluss auf die Qualität, während sie die Implementierung konstanter Speicher- und linearer Rechenkomplexität ermöglicht.
ReHyAt stellt einen vielversprechenden Fortschritt in der Videogenerierung dar, indem es die Skalierbarkeit von Video-Diffusion-Transformern durch einen rekurrenten hybriden Aufmerksamkeitsmechanismus erheblich verbessert. Der Ansatz ermöglicht die Generierung langer Videos mit konstantem Speicherverbrauch und linearer Rechenkomplexität, was ihn besonders für Anwendungen auf mobilen Geräten attraktiv macht. Die Kombination aus Softmax- und linearer Aufmerksamkeit, zusammen mit einem effizienten zweistufigen Trainingsprozess, führt zu einer hohen Videoqualität bei deutlich reduzierten Trainingskosten. Obwohl ReHyAt bereits starke Ergebnisse liefert, verbleiben bei einigen Videos, insbesondere mit den effizientesten Varianten, geringfügige temporale Inkonsistenzen, die zukünftige Forschungsanstrengungen erfordern könnten.
Für Unternehmen, die im Bereich der KI-gestützten Videoproduktion und -verarbeitung tätig sind, bietet ReHyAt eine potenzielle Lösung, um die Effizienz und Reichweite ihrer Anwendungen zu erweitern. Die Fähigkeit, hochwertige Videos auf ressourcenbeschränkten Geräten zu generieren, eröffnet neue Möglichkeiten für mobile Anwendungen, Echtzeit-Videobearbeitung und die Schaffung immersiver digitaler Erlebnisse.
Bibliography - Ghafoorian, M., & Habibian, A. (2026). ReHyAt: Recurrent Hybrid Attention for Video Diffusion Transformers. arXiv preprint arXiv:2601.04342. - Hugging Face. (n.d.). Daily Papers - Hugging Face. https://huggingface.co/papers?q=Recurrent%20Hybrid%20Atten - Qualcomm AI Research. (n.d.). ReHyAt: Recurrent Hybrid Attention for Video Diffusion Transformers. https://qualcomm-ai-research.github.io/rehyat/Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen