Die Restaurierung beschädigter Videos, bekannt als Videoinpainting, hat in den letzten Jahren erhebliche Fortschritte gemacht. Trotzdem stehen bestehende Methoden vor Herausforderungen. Sei es die Verbreitung von Pixeln aus unmaskierten Bereichen mithilfe von optischem Fluss und rezeptiven Feldprioren oder die zeitliche Erweiterung von Bildinpainting-Modellen – Schwierigkeiten bestehen weiterhin in der Generierung vollständig maskierter Objekte oder der gleichzeitigen Optimierung von Hintergrundkontexterhaltung und Vordergrundgenerierung in einem einzigen Modell.
VideoPainter, ein neuartiges Verfahren, adressiert diese Herausforderungen durch ein duales Stream-Paradigma. Kernstück ist ein effizienter Kontext-Encoder (mit nur 6% der Parameter des Hauptnetzwerks), der maskierte Videos verarbeitet und kontextbezogene Hintergrundinformationen an ein vortrainiertes Video-Diffusion-Transformer-Modell (DiT) liefert. Dieser Plug-and-Play-Ansatz ermöglicht die Generierung semantisch konsistenter Inhalte. Die architektonische Trennung reduziert die Lernkomplexität des Modells und ermöglicht gleichzeitig eine differenzierte Integration des wichtigen Hintergrundkontextes.
Eine innovative Technik des Target Region ID Resampling ermöglicht das Inpainting von Videos beliebiger Länge. Diese Funktion erweitert die praktische Anwendbarkeit von VideoPainter erheblich und hebt es von vielen bisherigen Lösungen ab, die oft durch die Videolänge limitiert sind.
Mit VPData und VPBench wurden zudem eine skalierbare Dataset-Pipeline und ein Benchmark entwickelt. Diese nutzen aktuelle Modelle des Computersehens und stellen mit über 390.000 verschiedenen Clips den bisher größten Datensatz und Benchmark für segmentierungsbasiertes Inpainting-Training und -bewertung dar. Dies ermöglicht eine umfassendere und realistischere Evaluation von Inpainting-Methoden.
Über das Inpainting hinaus demonstriert VideoPainter sein Potenzial auch in nachgelagerten Anwendungen. Beispiele hierfür sind die Videobearbeitung und die Generierung von Trainingsdaten für Videobearbeitungsmodelle. Die Ergebnisse zeigen eine wettbewerbsfähige Leistung und ein erhebliches praktisches Potenzial für diverse Anwendungsfälle.
Umfassende Experimente belegen die überlegene Leistung von VideoPainter im Vergleich zu bestehenden Methoden. Die Bewertung erfolgte anhand von acht Schlüsselmetriken, darunter Videoqualität, Maskierungsbereichserhaltung und Textkohärenz. VideoPainter erzielt in allen Bereichen überzeugende Ergebnisse und setzt neue Standards im Bereich des Videoinpaintings.
VideoPainter präsentiert einen innovativen Ansatz für Videoinpainting und -bearbeitung. Die Kombination aus dualem Stream-Paradigma, ID-Resampling und den umfangreichen Datensätzen VPData und VPBench ermöglicht die Bearbeitung von Videos beliebiger Länge und liefert qualitativ hochwertige Ergebnisse. Die Anwendungsmöglichkeiten reichen von der Restaurierung beschädigter Videos bis hin zur Generierung von Trainingsdaten für Videobearbeitungsmodelle. VideoPainter stellt damit einen wichtigen Beitrag zur Weiterentwicklung der KI-gestützten Videoverarbeitung dar.
Bibliografie: https://arxiv.org/abs/2503.05639 https://arxiv.org/html/2503.05639v1 https://github.com/TencentARC/VideoPainter https://chatpaper.com/chatpaper/ja/paper/118315 https://yxbian23.github.io/ https://huggingface.co/TencentARC https://github.com/TencentARC/BrushNet https://www.researchgate.net/publication/384208478_AVID_Any-Length_Video_Inpainting_with_Diffusion_Model https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/03014.pdf