Innovatives Framework zur identitätserhaltenden Videogenerierung mit WildActor

Kategorien:

No items found.

Freigegeben:

March 9, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

WildActor ist ein neues Framework zur Generierung von Videos mit konsistenter menschlicher Identität, unabhängig von dynamischen Aufnahmen, Blickwinkeln und Bewegungen.
Ein zentrales Element ist der Datensatz Actor-18M, der 1,6 Millionen Videos und 18 Millionen zugehörige menschliche Bilder umfasst, um die Identitätskonsistenz unter unbegrenzten Bedingungen zu gewährleisten.
Das Framework integriert einen Asymmetric Identity-Preserving Attention (AIPA) Mechanismus und eine Viewpoint-Adaptive Monte Carlo Sampling Strategie.
AIPA verhindert Identitätslecks und Pose-Locking-Artefakte, indem es einen asymmetrischen Informationsfluss zwischen Referenz- und Video-Tokens erzwingt.
Die Viewpoint-Adaptive Monte Carlo Sampling Strategie optimiert die Auswahl von Referenzbildern, um eine ausgewogene Abdeckung verschiedener Blickwinkel während des Trainings zu fördern.
WildActor übertrifft bestehende Methoden in Bezug auf Körperkonsistenz, Gesichtserhaltung und semantische Ausrichtung, selbst bei komplexen Szenarien mit großen Blickwinkelwechseln und Bewegungen.

Fortschritte in der identitätserhaltenden Videogenerierung: Eine Analyse des WildActor-Frameworks

Die Generierung von Videos, die eine konsistente menschliche Identität über verschiedene Szenen, Blickwinkel und Bewegungen hinweg beibehalten, stellt eine signifikante Herausforderung in der Computer Vision dar. Bestehende Methoden zeigen häufig Einschränkungen, die von einer übermäßigen Konzentration auf Gesichtsmerkmale bis hin zu "Copy-Paste"-Artefakten reichen, bei denen Subjekte aufgrund von Pose-Locking starr wirken. Eine aktuelle Forschungsarbeit stellt hierzu das WildActor-Framework vor, das diese Probleme durch einen neuartigen Ansatz und einen umfangreichen Datensatz adressiert.

Die Herausforderung der Identitätskonsistenz in der Videogenerierung

Die Produktion von qualitativ hochwertigen Videos erfordert, dass digitale Akteure ihre Identität über dynamische Aufnahmen, wechselnde Blickwinkel und komplexe Bewegungen hinweg strikt konsistent halten. Aktuelle Diffusions-Transformer (DiT)-Modelle, wie sie beispielsweise von OpenAI (Sora) oder Kuaishou (Kling) entwickelt wurden, erreichen zwar einen hohen Grad an Fotorealismus, haben jedoch oft Schwierigkeiten, die Identitätskonsistenz bei wechselnden Blickwinkeln zu gewährleisten. Dies kann zu "Identitätsdrift" führen, bei der Gesichtsmerkmale oder Kleidungstexturen inkonsistent werden.

Zwei Hauptbeschränkungen prägen die bisherigen Ansätze: Erstens sind viele Methoden gesichtszentriert, was dazu führt, dass die Körperkonsistenz vernachlässigt wird und der Effekt eines "schwebenden Kopfes" entsteht. Zweitens führen Methoden, die das gesamte Referenzbild naiv kodieren, oft zu "Pose-Locking", bei dem die generierte Figur in ihrer Bewegung eingeschränkt ist. Ein weiterer limitierender Faktor ist der Mangel an umfangreichen Datensätzen, die eine blickwinkelinvariante Repräsentation von Menschen in unkontrollierten Umgebungen ermöglichen.

Actor-18M: Ein neuer Maßstab für Datensätze

Um diese Datenlücke zu schließen, wurde der Datensatz Actor-18M entwickelt. Dieser umfasst über 1,6 Millionen hochwertige Videos und 18 Millionen zugehörige menschliche Bilder. Im Gegensatz zu generischen Sammlungen bietet Actor-18M mehrere Referenzbilder desselben Subjekts, die verschiedene Blickwinkel, Umgebungen und Bewegungen innerhalb der Videos abdecken. Dies ermöglicht es Modellen, identitätskonsistente Repräsentationen unter unbegrenzten Bedingungen zu lernen.

Die Erstellung von Actor-18M erfolgte durch eine zweistufige Filterpipeline, die sowohl grobe Filterung mittels Gesichtsähnlichkeit (ArcFace) als auch eine feinkörnige Filterung unter Verwendung von dichter Punktverfolgung (CoTracker) und CLIP-basierter Ähnlichkeitsprüfung umfasste. Dies gewährleistet eine strikte Subjektkonsistenz über alle Frames hinweg. Der Datensatz ist in drei spezialisierte Untergruppen unterteilt, um unterschiedliche Herausforderungen anzugehen:

Actor-18M-A: Adressiert das Problem des "Pose-Locking" durch die Generierung von blickwinkeltransformierten Referenzen. Hierbei werden mithilfe eines Multi-Angle-Bildbearbeitungsmodells Gesichts- und Körperbilder aus sechs verschiedenen Blickwinkeln synthetisiert und deren Konsistenz mittels eines Multimodalen LLM (MLLM) überprüft.
Actor-18M-B: Verhindert eine Überanpassung an Hintergrund oder Beleuchtung durch Attributdiversifizierung. Ein Attributpool von 200 Umgebungen, 8 Ausdrücken, 10 Lichtbedingungen und 30 Bewegungen wird genutzt, um mittels MLLM-generierter Bearbeitungsanweisungen neue Referenzen zu synthetisieren.
Actor-18M-C: Bietet vollständige Identitätsanker in Form von kanonischen Drei-Ansichten-Bildern (Vorder-, Seiten-, Rückansicht). Videos werden gefiltert, um Subjekte zu identifizieren, die aus allen drei Blickwinkeln sichtbar sind, und daraus kanonische Charakterbögen generiert.

Diese Strukturierung und Anreicherung des Datensatzes zielt darauf ab, eine robuste Grundlage für die unbegrenzte Videogenerierung zu schaffen, die eine ausgewogenere Abdeckung aller Blickwinkel ermöglicht und den starken frontalen Blickwinkel-Bias in Rohdaten reduziert.

WildActor: Ein innovatives Framework

Aufbauend auf Actor-18M, wurde WildActor als Framework für die beliebige blickwinkelkonditionierte menschliche Videogenerierung konzipiert. Es integriert zwei Schlüsselkomponenten:

Asymmetric Identity-Preserving Attention (AIPA): Dieser Mechanismus verhindert Identitätslecks, indem er einen asymmetrischen Informationsfluss erzwingt. Referenz-Tokens liefern Identitätshinweise an Video-Tokens, bleiben aber von verrauschten Backbone-Features isoliert. Dies umfasst eine referenz-only LoRA (Low-Rank Adaptation) und einen asymmetrischen Aufmerksamkeitsfluss, bei dem Referenz-Tokens unabhängige Selbst-Aufmerksamkeit ausführen, um Informationen zu aggregieren, während Video-Tokens standardmäßige Selbst-Aufmerksamkeit durchlaufen.
Identity-Aware 3D RoPE (I-RoPE): Da Video-Tokens und Identitätsreferenz-Tokens denselben Aufmerksamkeitskontext teilen, löst I-RoPE Mehrdeutigkeiten durch die Zuweisung unterschiedlicher räumlich-zeitlicher Koordinaten zu verschiedenen Token-Typen. Dies gewährleistet eine robuste strukturelle Kohärenz und Bewegungsqualität.

Das Trainingsschema von WildActor fördert eine komplementäre Referenzabtastung, indem es eine Viewpoint-Adaptive Monte Carlo Sampling Strategie nutzt. Diese Strategie gewichtet Referenzbilder dynamisch neu, um eine vielfältige Abdeckung zu ermöglichen und redundante Ansichten zu vermeiden. Dadurch lernt das Modell eine blickwinkelunabhängige Robustheit, was zu einer hohen Konsistenz selbst in anspruchsvollen Szenarien wie Rückansichten führt.

Experimentelle Ergebnisse und Evaluierung

WildActor wurde auf dem neu etablierten Actor-Bench evaluiert, der 75 verschiedene Subjekte in drei Konditionierungseinstellungen umfasst: kanonische Drei-Ansichten, beliebiger Blickwinkel und In-the-Wild. Die Bewertung erfolgte entlang zweier Achsen: sequentielle Narrative (zur Beurteilung der Identitätskonsistenz in langen Videos) und kontextuelle Generalisierung (zur Bewertung der Generalisierungsfähigkeit in realen Szenarien).

Qualitative und quantitative Vergleiche zeigen, dass WildActor bestehende Methoden signifikant übertrifft. Insbesondere erreicht es eine überlegene Ganzkörperkonsistenz und semantische Ausrichtung. Während kommerzielle Modelle wie Vidu Q2 und Kling 1.6 visuell flüssige Videos mit starker Bewegungsdynamik produzieren, zeigen sie oft eine geringere Kontrolle über Blickwinkelübergänge oder prompt-spezifische Attribute. WildActor hingegen bewahrt eine robustere Ganzkörperkonsistenz bei gleichzeitiger präziser Einhaltung von Änderungen in Blickwinkel, Kamerabewegung und Aktion.

In Ablationsstudien wurde die Wirksamkeit der Datensatz- und Samplingstrategie sowie der Modellkomponenten AIPA und I-RoPE bestätigt. Es zeigte sich, dass die Viewpoint-Adaptive Sampling-Strategie die durchschnittliche Körperkonsistenz erheblich steigert und selbst bei herausfordernden Rückansichten eine hohe Konsistenz aufrechterhält. AIPA verbessert die Gesichtserhaltung, während I-RoPE durch die explizite Kodierung der Unterscheidung zwischen Referenz- und Video-Features einen scharfen Rückgang der Körperkonsistenz verhindert.

Fazit und Ausblick

Das WildActor-Framework und der dazugehörige Actor-18M-Datensatz stellen einen bedeutenden Fortschritt in der identitätserhaltenden Videogenerierung dar. Durch die Kombination eines umfangreichen, sorgfältig kuratierten Datensatzes mit innovativen Architekturkomponenten wie AIPA und I-RoPE adressiert WildActor zentrale Herausforderungen, mit denen bestehende Methoden zu kämpfen haben. Die Fähigkeit, konsistente Ganzkörperidentitäten über dynamische Aufnahmen, große Blickwinkelübergänge und umfangreiche Bewegungen hinweg zu bewahren, eröffnet neue Möglichkeiten für Anwendungen in der Filmproduktion, im Gaming und in der Erstellung digitaler Inhalte. Zukünftige Forschungsarbeiten könnten sich darauf konzentrieren, die Methode auf Multi-Personen-Szenarien mit komplexen Interaktionen auszudehnen, um die Anwendbarkeit weiter zu erhöhen.

Bibliographie

Qin Guo, Tianyu Yang, Xuanhua He, Fei Shen, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Dan Xu: "WildActor: Unconstrained Identity-Preserving Video Generation". arXiv:2603.00586 [cs.CV], 2026. Hugging Face: "WildActor: Unconstrained Identity-Preserving Video Generation". https://huggingface.co/papers/2603.00586. Accessed: 2024-05-15. ResearchGate: "(PDF) WildActor: Unconstrained Identity-Preserving Video Generation". https://www.researchgate.net/publication/401470593_WildActor_Unconstrained_Identity-Preserving_Video_Generation. Accessed: 2024-05-15. ChatPaper: "WildActor: Unconstrained Identity-Preserving Video Generation". https://chatpaper.com/zh-CN/paper/242630. Accessed: 2024-05-15. CVPR: "Identity-Preserving Text-to-Video Generation by Frequency ... - CVPR". https://cvpr.thecvf.com/virtual/2025/poster/32871. Accessed: 2024-05-15. PKU Yuan Group: "ConsisID: Identity-Preserving Text-to-Video Generation by ...". https://pku-yuangroup.github.io/ConsisID/. Accessed: 2024-05-15.