Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Generierung von Videos durch Künstliche Intelligenz hat in den letzten Jahren erhebliche Fortschritte gemacht. Modelle wie OpenAI's Sora haben die Messlatte für Realismus und temporale Kohärenz hochgelegt. Doch die Erstellung von langen, kohärenten Videos, die über Minuten oder gar Stunden reichen, bleibt eine Herausforderung. Ein kürzlich veröffentlichter Forschungsbericht mit dem Titel "LoL: Longer than Longer, Scaling Video Generation to Hour" stellt einen neuen Ansatz vor, der dieses Problem adressiert und die Generierung von Videosequenzen von bis zu 12 Stunden Länge ohne signifikanten Qualitätsverlust ermöglicht.
Bisherige Modelle zur Videogenerierung, insbesondere autoregressive Ansätze, die Bild für Bild generieren, leiden häufig unter Akkumulation von Fehlern und einem Verlust der langfristigen Kohärenz. Eine gängige Technik zur Minderung dieses Problems sind sogenannte "Attention Sink Frames". Dabei werden anfängliche Frames im KV-Cache (Key-Value Cache) beibehalten, um als stabile Referenzpunkte für die nachfolgende Generierung zu dienen und die temporale Konsistenz zu verbessern.
Die Forscher identifizierten jedoch einen kritischen Fehler, den sie als "Sink-Collapse" bezeichnen. Dieses Phänomen tritt auf, wenn die generierten Inhalte wiederholt auf die "Sink Frames" zurückfallen, was zu abrupten Szenenwechseln und zyklischen Bewegungsmustern führt. Das Video "setzt sich quasi zurück", was die Illusion einer kontinuierlichen Sequenz stört. Eine bemerkenswerte Eigenschaft des "Sink-Collapse" ist seine Vorhersagbarkeit: Es tritt an denselben Frame-Indizes auf, unabhängig von Input-Rauschen oder Prompts, was auf eine systematische Ursache hindeutet.
Die detaillierte Analyse der Forscher legt offen, dass der "Sink-Collapse" aus einem grundlegenden Konflikt zwischen der periodischen Struktur der Rotary Position Embedding (RoPE) und den Multi-Head Attention Mechanismen in den aktuellen generativen Modellen resultiert. RoPE kodiert Positionsinformationen durch Rotationen von Query- und Key-Vektoren im Aufmerksamkeitsmechanismus. Diese Rotationen nutzen trigonometrische Funktionen, die eine periodische Natur aufweisen. Über lange Sequenzen hinweg kann dies dazu führen, dass mehrere Frequenzkomponenten gleichzeitig mit den "Sink Frames" phasenjustiert werden.
Ein weiteres Element ist die "Multi-Head Attention". Diese Mechanismen sollen verschiedene Aspekte der Eingabe erfassen. Bei normaler Generierung verteilen die Attention-Heads ihre Gewichte auf unterschiedliche Weise. Beim "Sink-Collapse" jedoch zeigen die Analysen, dass mehrere Heads gleichzeitig eine ungewöhnlich hohe Gewichtung auf die "Sink Frames" legen. Dies führt dazu, dass das Modell diese Anfangs-Frames über alle Aufmerksamkeits-Subräume hinweg "kopiert", was zu den beobachteten abrupten Szenenübergängen führt.
Um dem "Sink-Collapse" entgegenzuwirken, schlagen die Forscher einen "Multi-Head RoPE Jitter" vor. Diese Methode ist trainingsfrei und überraschend einfach. Die Kernidee besteht darin, die Phasensynchronisation zwischen den Attention-Heads aufzubrechen, indem die RoPE-Basisfrequenz für jeden Head leicht unterschiedlich gestört wird. Konkret wird für jeden Attention-Head h eine zufällige Störung ε_h aus einer Gleichverteilung [-1, 1] abgetastet und eine Head-spezifische Basisfrequenz θ̂_h = θ₀ × (1 + σ_θ × ε_h) berechnet, wobei σ_θ ein Jitter-Skalierungsfaktor ist (empirisch auf 0,8 gesetzt).
Da nun jeder Head ein leicht unterschiedliches Frequenzprofil besitzt, wird die Wahrscheinlichkeit einer gleichzeitigen Phasenjustierung über alle Heads hinweg erheblich reduziert. Die Heads desynchronisieren sich, wodurch das kollektive Kollapsverhalten verhindert wird. Diese Methode fügt nur minimale Rechenlast hinzu, da die Frequenzstörung nur einmal pro Head berechnet und während der gesamten Generierung angewendet wird.
Neben der Lösung des "Sink-Collapse"-Problems adressiert die Arbeit auch praktische Einschränkungen, die frühere Methoden auf wenige Minuten Videolänge beschränkten. Zwei Haupteigenschaften der zugrundeliegenden Architektur ermöglichen die Erweiterung auf unbegrenzte Länge:
Durch die Kombination der "Multi-Head RoPE Jitter"-Methode mit diesen architektonischen Eigenschaften wird eine theoretisch unbegrenzte Videogenerierung ermöglicht. Die Forscher demonstrierten kontinuierliche Videos von bis zu 12 Stunden Länge mit gleichbleibender Qualität und temporaler Stabilität.
Die quantitativen Ergebnisse zeigen, dass naive Positionsextrapolation (PE) zu einem starken "Sink-Collapse" führt. Im Gegensatz dazu eliminiert Position Interpolation (PI) das Kollapsphänomen, jedoch auf Kosten einer drastischen Reduzierung der Bewegungsdynamik im Video. Fortgeschrittenere Ansätze wie NTK und YARN bieten unterschiedliche Kompromisse zwischen Kollapsreduzierung und Bewegungserhaltung. RIFLEx, das für bidirektionale Modelle entwickelt wurde, versagt bei der Bewältigung des autoregressiven "Sink-Collapse".
Die vorgeschlagene "LoL"-Methode erreicht Kollaps-Scores, die mit der Position Interpolation vergleichbar sind, während die Bewegungsdynamik ähnlich der Baseline beibehalten wird. Dies stellt einen signifikanten Fortschritt dar, da die Vorteile beider Ansätze ohne deren jeweilige Nachteile genutzt werden können.
Obwohl die Methode trainingsfrei ist, könnte ein Fine-Tuning oder Retraining die Gesamtleistung weiter verbessern. Die Generierungsqualität ist durch die zugrundeliegenden Modelle begrenzt, die auf lokaler Attention und "Sink Frames" basieren. Die Aufrechterhaltung eines Langzeitgedächtnisses bleibt eine Herausforderung, insbesondere bei stundenlangen Videos. Zukünftige Forschungsarbeiten könnten alternative Embedding-Schemata oder fortgeschrittene Trainingsstrategien untersuchen, um die inhärente Periodizität von RoPE-Positionseinbettungen zu adressieren. Auch die Integration stärkerer Kontrollsignale und die Verbesserung der Skalierbarkeit durch sparse oder lineare Aufmerksamkeitsmechanismen sind geplante Schritte.
Ein weiterer wichtiger Aspekt ist die Kapazität der Basismodelle. Die aktuelle Implementierung basiert auf einem 1.3B-Parameter-Modell (Wan2.1-T2V-1.3B), das bei extrem langen Sequenzen eine reduzierte visuelle Vielfalt aufweisen kann. Die Verwendung stärkerer Basismodelle und die Verbesserung des Langzeitgedächtnisses sind entscheidende Richtungen für die weitere Entwicklung.
Die Forschungsergebnisse zu "LoL: Longer than Longer" stellen einen bedeutenden Fortschritt in der KI-gestützten Videogenerierung dar. Für Unternehmen im Bereich Medienproduktion, Simulationen, E-Learning oder der Erstellung von synthetischen Daten eröffnet die Möglichkeit, stundenlange, kohärente Videos ohne Qualitätsverlust zu generieren, neue Anwendungsfelder. Die trainingsfreie Natur der Lösung macht sie unmittelbar auf bestehende Systeme anwendbar, was die Implementierungskosten und -zeit erheblich reduziert. Die Adressierung des "Sink-Collapse"-Problems durch den innovativen "Multi-Head RoPE Jitter" und die effiziente Nutzung von kausalen VAEs und lokaler Attention sind technische Meilensteine, die die Skalierbarkeit und Stabilität von generierten Videoinhalten maßgeblich verbessern. Diese Entwicklungen unterstreichen das Potenzial von KI, komplexe und zeitaufwändige Aufgaben in der Content-Erstellung zu revolutionieren.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen