Netflix veröffentlicht neues KI-Framework zur objektiven Videobearbeitung

Kategorien:

No items found.

Freigegeben:

April 5, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Netflix hat VOID (Video Object and Interaction Deletion) als Open-Source-Framework veröffentlicht, das Objekte aus Videos entfernen und die physikalischen Auswirkungen dieser Entfernung neu berechnen kann.
Im Gegensatz zu herkömmlichen Inpainting-Tools berücksichtigt VOID kausale Zusammenhänge und sorgt für physikalisch plausible Anpassungen der Szene.
Das Modell basiert auf dem CogVideoX-Modell von Alibaba und wurde mit synthetischen Daten von HUMOTO und Kubric trainiert, um reale physikalische Interaktionen zu simulieren.
Ein Kernstück von VOID ist die "Quadmaske", eine 4-Werte-Maske, die nicht nur das zu entfernende Objekt, sondern auch überlappende und physikalisch betroffene Bereiche definiert.
VOID verwendet einen zweistufigen Inferenzprozess, wobei der zweite Durchlauf die zeitliche Konsistenz verbessert und Verformungen korrigiert.
Die Veröffentlichung unter der Apache 2.0 Lizenz ermöglicht eine kommerzielle Nutzung und ist ein bedeutender Schritt von Netflix in Richtung Open Source im Bereich KI.

Die Landschaft der Videobearbeitung erfährt durch den Fortschritt im Bereich der Künstlichen Intelligenz (KI) eine fundamentale Transformation. Eine aktuelle Entwicklung, die in der Fachwelt auf großes Interesse stößt, ist die Veröffentlichung des KI-Frameworks VOID durch Netflix. VOID, eine Abkürzung für "Video Object and Interaction Deletion", stellt eine innovative Lösung dar, die nicht nur Objekte aus Videosequenzen entfernt, sondern auch die physikalischen Konsequenzen dieser Entfernung im Video neu berechnet und anpasst. Dies adressiert eine zentrale Herausforderung in der Postproduktion und könnte weitreichende Implikationen für die Medienbranche haben.

Die Herausforderung der physikalischen Plausibilität bei der Videobearbeitung

Die Entfernung von Objekten aus Videos ist an sich keine neue Technik. Bereits seit längerer Zeit existieren Inpainting-Tools, die in der Lage sind, unerwünschte Elemente aus einem Frame zu eliminieren und die entstandene Lücke mit passenden Pixeln zu füllen. Die Schwierigkeit bestand jedoch stets darin, nicht nur das Objekt zu entfernen, sondern auch die physikalischen Interaktionen, die dieses Objekt mit seiner Umgebung hatte, glaubwürdig zu korrigieren. Wenn beispielsweise eine Person, die eine Gitarre hält, aus einem Video entfernt wird, würden herkömmliche Tools eventuell die Gitarre in der Luft schweben lassen oder andere physikalisch inkorrekte Szenarien erzeugen. Solche Inkonsistenzen erforderten bisher oft aufwendige manuelle Nachbearbeitung durch VFX-Spezialisten.

VOID setzt genau an dieser Stelle an. Das Framework zielt darauf ab, diese kausalen Zusammenhänge zu verstehen und die Szene so anzupassen, als hätte das entfernte Objekt nie existiert oder die entsprechenden physikalischen Effekte nie ausgelöst. Dies umfasst nicht nur die Beseitigung von Schatten oder Reflexionen, sondern auch komplexere Interaktionen wie Kollisionen oder die Unterstützung von Objekten, die daraufhin realistisch zu Boden fallen.

Architektur und Funktionsweise von VOID

VOID wurde von Netflix-Forschern in Zusammenarbeit mit der INSAIT Sofia University entwickelt und ist auf dem Video-Diffusionsmodell CogVideoX-Fun-V1.5-5b-InP von Alibaba aufgebaut. Es handelt sich um ein 3D-Transformer-basiertes Modell mit etwa 5 Milliarden Parametern, das speziell für das Video-Inpainting mit "interaktionsbewusster Masken-Konditionierung" feinabgestimmt wurde.

Die innovative Quadmaske

Ein Schlüsselelement, das VOID von anderen Ansätzen unterscheidet, ist die Verwendung einer sogenannten "Quadmaske". Während herkömmliche Masken binär sind (entweder ein Pixel gehört zum Objekt oder nicht), arbeitet die Quadmaske mit vier verschiedenen Werten, die unterschiedliche Bereiche der Szene kennzeichnen:

0: Das primäre Objekt, das entfernt werden soll.
63: Überlappende Bereiche zwischen dem Primärobjekt und den betroffenen Regionen.
127: Physikalisch betroffene Regionen (z.B. fallende Objekte, verschobene Gegenstände).
255: Der Hintergrund, der unverändert bleiben soll.

Diese differenzierte Maskierung ermöglicht es dem Modell, ein strukturiertes semantisches Verständnis der Szene zu entwickeln und nicht nur pixelbasierte Füllungen vorzunehmen, sondern auch zu "verstehen", welche physikalischen Anpassungen notwendig sind.

Der zweistufige Inferenzprozess

VOID nutzt einen zweistufigen Inferenzprozess, um optimale Ergebnisse zu erzielen:

Pass 1: Dies ist das grundlegende Inpainting-Modell, das die Objekte entfernt und die Szene basierend auf der Quadmaske und einem Text-Prompt ("Beschreibung der Szene nach der Entfernung") neu generiert. Für die meisten Videos ist dieser erste Durchlauf ausreichend.
Pass 2: Dieser optionale zweite Durchlauf dient der Verfeinerung und Verbesserung der zeitlichen Konsistenz, insbesondere bei längeren Videosequenzen. Er korrigiert bekannte Fehlerbilder kleinerer Video-Diffusionsmodelle, wie beispielsweise Objektsverformungen über mehrere Frames hinweg. Durch die Verwendung von optischem Fluss-verzerrten Latenzen aus dem ersten Durchlauf als Initialisierung für einen zweiten Diffusionslauf wird die Formstabilität der synthetisierten Objekte von Frame zu Frame verankert.

Datengrundlage und Training

Die Erzeugung von Trainingsdaten für ein Modell, das physikalische Interaktionen verstehen soll, stellt eine besondere Herausforderung dar. Da es keine groß angelegten Datensätze mit gepaarten Videos (Szene mit und ohne Objekt, bei denen die Physik korrekt simuliert wird) gibt, hat das Netflix-Team synthetische Daten verwendet. Zum Einsatz kamen hierfür zwei Hauptquellen:

HUMOTO (Human-Object Interaction): Hierbei werden menschliche Objektinteraktionen in Blender mit physikalischen Simulationen gerendert. Es werden Videos erstellt, in denen ein Mensch ein Objekt hält, und dann eine Gegendarstellung, in der der Mensch entfernt wird und das Objekt physikalisch korrekt fällt.
Kubric: Dieses von Google entwickelte Framework wird für Objekt-Objekt-Interaktionen genutzt. Es generiert ebenfalls gepaarte Videos, in denen die Physik nachweislich korrekt ist.

Dieser Ansatz ermöglichte es, eine große Menge an qualitativ hochwertigen Trainingsdaten zu generieren, die das Modell befähigen, physikalisch plausible Ergebnisse zu liefern.

Anwendungsbereiche und kommerzielle Implikationen

Die Fähigkeiten von VOID sind für die Film- und Medienproduktion von erheblicher Bedeutung. Szenenänderungen, die zuvor kostspielige Nachdrehs oder aufwendige manuelle VFX-Arbeiten erforderten, könnten nun erheblich vereinfacht und beschleunigt werden. Dies könnte die kreative Freiheit von Regisseuren und Produzenten erweitern, indem die "Kosten von Fehlern" im Filmemachen reduziert werden.

Netflix hat VOID unter der Apache 2.0 Lizenz als Open Source veröffentlicht. Dies ist ein bemerkenswerter Schritt, da er die kommerzielle Nutzung des Frameworks ohne Einschränkungen erlaubt. Die Verfügbarkeit auf Plattformen wie Hugging Face und GitHub ermöglicht es der breiteren KI-Gemeinschaft, VFX-Künstlern und unabhängigen Entwicklern, das Modell zu nutzen, zu testen und weiterzuentwickeln. Diese Öffnung könnte die Entwicklung effizienterer Postproduktions-Workflows für die gesamte Branche vorantreiben.

Erste Vergleichsstudien, bei denen VOID gegen etablierte Tools wie Runway, ProPainter und DiffuEraser antrat, zeigten eine signifikante Präferenz für VOID. In einer Umfrage bevorzugten 64,8% der Teilnehmer die Ergebnisse von VOID, während Runway mit 18,4% an zweiter Stelle lag. Dies unterstreicht die Überlegenheit von VOID in Bezug auf Realismus und Kohärenz, insbesondere bei der Modellierung komplexer Dynamiken.

Systemanforderungen und zukünftige Entwicklungen

Die aktuelle Implementierung von VOID erfordert eine leistungsstarke Hardware, insbesondere eine GPU mit mindestens 40 GB VRAM (z.B. eine NVIDIA A100). Dies schränkt die lokale Nutzung für Einzelpersonen ein, jedoch steht eine Demo auf Hugging Face zur Verfügung. Es wird erwartet, dass die Community durch weitere Optimierungen und Quantisierungsverfahren die Systemanforderungen in Zukunft reduzieren wird.

Die Veröffentlichung von VOID durch Netflix markiert einen wichtigen Meilenstein in der Anwendung von KI in der Videoproduktion. Es ist ein Beispiel dafür, wie spezialisierte KI-Modelle nicht nur visuelle Artefakte korrigieren, sondern auch ein tiefgreifendes Verständnis physikalischer Prinzipien in die Bearbeitungsprozesse integrieren können. Die weitreichenden Implikationen für Effizienz, Kreativität und die Qualität von Medieninhalten werden die Branche in den kommenden Jahren prägen.

Bibliographie:

- Bastian, Matthias. "Netflix open-sources VOID, an AI framework that erases video objects and rewrites the physics they left behind." The Decoder. - Sutter, Michal. "Netflix AI Team Just Open-Sourced VOID: an AI Model That Erases Objects From Videos — Physics and All." MarkTechPost. - Awesome Agents. "Netflix VOID Erases Video Objects and Rewrites Physics." YouTube. - Patel, Priyanka. "Netflix Unveils VOID: A Powerful AI Model for Video Object Removal." Time News. - "netflix/void-model." Hugging Face. - Kay, Arthur. "Netflix Introduces VOID AI Model for Editing Video Scenes Without Reshooting." gHacks Tech News. - Hwang, Chi-gyu. "Netflix releases VOID video AI model as open source." DigitalToday. - "Netflix выпустил открытую ИИ-модель для видео, которая удаляет объекты и пересчитывает физику." Habr. - "Netflix/void-model." GitHub.