Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Landschaft der Videobearbeitung erfährt durch den Fortschritt im Bereich der Künstlichen Intelligenz (KI) eine fundamentale Transformation. Eine aktuelle Entwicklung, die in der Fachwelt auf großes Interesse stößt, ist die Veröffentlichung des KI-Frameworks VOID durch Netflix. VOID, eine Abkürzung für "Video Object and Interaction Deletion", stellt eine innovative Lösung dar, die nicht nur Objekte aus Videosequenzen entfernt, sondern auch die physikalischen Konsequenzen dieser Entfernung im Video neu berechnet und anpasst. Dies adressiert eine zentrale Herausforderung in der Postproduktion und könnte weitreichende Implikationen für die Medienbranche haben.
Die Entfernung von Objekten aus Videos ist an sich keine neue Technik. Bereits seit längerer Zeit existieren Inpainting-Tools, die in der Lage sind, unerwünschte Elemente aus einem Frame zu eliminieren und die entstandene Lücke mit passenden Pixeln zu füllen. Die Schwierigkeit bestand jedoch stets darin, nicht nur das Objekt zu entfernen, sondern auch die physikalischen Interaktionen, die dieses Objekt mit seiner Umgebung hatte, glaubwürdig zu korrigieren. Wenn beispielsweise eine Person, die eine Gitarre hält, aus einem Video entfernt wird, würden herkömmliche Tools eventuell die Gitarre in der Luft schweben lassen oder andere physikalisch inkorrekte Szenarien erzeugen. Solche Inkonsistenzen erforderten bisher oft aufwendige manuelle Nachbearbeitung durch VFX-Spezialisten.
VOID setzt genau an dieser Stelle an. Das Framework zielt darauf ab, diese kausalen Zusammenhänge zu verstehen und die Szene so anzupassen, als hätte das entfernte Objekt nie existiert oder die entsprechenden physikalischen Effekte nie ausgelöst. Dies umfasst nicht nur die Beseitigung von Schatten oder Reflexionen, sondern auch komplexere Interaktionen wie Kollisionen oder die Unterstützung von Objekten, die daraufhin realistisch zu Boden fallen.
VOID wurde von Netflix-Forschern in Zusammenarbeit mit der INSAIT Sofia University entwickelt und ist auf dem Video-Diffusionsmodell CogVideoX-Fun-V1.5-5b-InP von Alibaba aufgebaut. Es handelt sich um ein 3D-Transformer-basiertes Modell mit etwa 5 Milliarden Parametern, das speziell für das Video-Inpainting mit "interaktionsbewusster Masken-Konditionierung" feinabgestimmt wurde.
Ein Schlüsselelement, das VOID von anderen Ansätzen unterscheidet, ist die Verwendung einer sogenannten "Quadmaske". Während herkömmliche Masken binär sind (entweder ein Pixel gehört zum Objekt oder nicht), arbeitet die Quadmaske mit vier verschiedenen Werten, die unterschiedliche Bereiche der Szene kennzeichnen:
Diese differenzierte Maskierung ermöglicht es dem Modell, ein strukturiertes semantisches Verständnis der Szene zu entwickeln und nicht nur pixelbasierte Füllungen vorzunehmen, sondern auch zu "verstehen", welche physikalischen Anpassungen notwendig sind.
VOID nutzt einen zweistufigen Inferenzprozess, um optimale Ergebnisse zu erzielen:
Die Erzeugung von Trainingsdaten für ein Modell, das physikalische Interaktionen verstehen soll, stellt eine besondere Herausforderung dar. Da es keine groß angelegten Datensätze mit gepaarten Videos (Szene mit und ohne Objekt, bei denen die Physik korrekt simuliert wird) gibt, hat das Netflix-Team synthetische Daten verwendet. Zum Einsatz kamen hierfür zwei Hauptquellen:
Dieser Ansatz ermöglichte es, eine große Menge an qualitativ hochwertigen Trainingsdaten zu generieren, die das Modell befähigen, physikalisch plausible Ergebnisse zu liefern.
Die Fähigkeiten von VOID sind für die Film- und Medienproduktion von erheblicher Bedeutung. Szenenänderungen, die zuvor kostspielige Nachdrehs oder aufwendige manuelle VFX-Arbeiten erforderten, könnten nun erheblich vereinfacht und beschleunigt werden. Dies könnte die kreative Freiheit von Regisseuren und Produzenten erweitern, indem die "Kosten von Fehlern" im Filmemachen reduziert werden.
Netflix hat VOID unter der Apache 2.0 Lizenz als Open Source veröffentlicht. Dies ist ein bemerkenswerter Schritt, da er die kommerzielle Nutzung des Frameworks ohne Einschränkungen erlaubt. Die Verfügbarkeit auf Plattformen wie Hugging Face und GitHub ermöglicht es der breiteren KI-Gemeinschaft, VFX-Künstlern und unabhängigen Entwicklern, das Modell zu nutzen, zu testen und weiterzuentwickeln. Diese Öffnung könnte die Entwicklung effizienterer Postproduktions-Workflows für die gesamte Branche vorantreiben.
Erste Vergleichsstudien, bei denen VOID gegen etablierte Tools wie Runway, ProPainter und DiffuEraser antrat, zeigten eine signifikante Präferenz für VOID. In einer Umfrage bevorzugten 64,8% der Teilnehmer die Ergebnisse von VOID, während Runway mit 18,4% an zweiter Stelle lag. Dies unterstreicht die Überlegenheit von VOID in Bezug auf Realismus und Kohärenz, insbesondere bei der Modellierung komplexer Dynamiken.
Die aktuelle Implementierung von VOID erfordert eine leistungsstarke Hardware, insbesondere eine GPU mit mindestens 40 GB VRAM (z.B. eine NVIDIA A100). Dies schränkt die lokale Nutzung für Einzelpersonen ein, jedoch steht eine Demo auf Hugging Face zur Verfügung. Es wird erwartet, dass die Community durch weitere Optimierungen und Quantisierungsverfahren die Systemanforderungen in Zukunft reduzieren wird.
Die Veröffentlichung von VOID durch Netflix markiert einen wichtigen Meilenstein in der Anwendung von KI in der Videoproduktion. Es ist ein Beispiel dafür, wie spezialisierte KI-Modelle nicht nur visuelle Artefakte korrigieren, sondern auch ein tiefgreifendes Verständnis physikalischer Prinzipien in die Bearbeitungsprozesse integrieren können. Die weitreichenden Implikationen für Effizienz, Kreativität und die Qualität von Medieninhalten werden die Branche in den kommenden Jahren prägen.
Bibliographie:
- Bastian, Matthias. "Netflix open-sources VOID, an AI framework that erases video objects and rewrites the physics they left behind." The Decoder. - Sutter, Michal. "Netflix AI Team Just Open-Sourced VOID: an AI Model That Erases Objects From Videos — Physics and All." MarkTechPost. - Awesome Agents. "Netflix VOID Erases Video Objects and Rewrites Physics." YouTube. - Patel, Priyanka. "Netflix Unveils VOID: A Powerful AI Model for Video Object Removal." Time News. - "netflix/void-model." Hugging Face. - Kay, Arthur. "Netflix Introduces VOID AI Model for Editing Video Scenes Without Reshooting." gHacks Tech News. - Hwang, Chi-gyu. "Netflix releases VOID video AI model as open source." DigitalToday. - "Netflix выпустил открытую ИИ-модель для видео, которая удаляет объекты и пересчитывает физику." Habr. - "Netflix/void-model." GitHub.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen