Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Generierung von Videos, die eine konsistente menschliche Identität über verschiedene Szenen, Blickwinkel und Bewegungen hinweg beibehalten, stellt eine signifikante Herausforderung in der Computer Vision dar. Bestehende Methoden zeigen häufig Einschränkungen, die von einer übermäßigen Konzentration auf Gesichtsmerkmale bis hin zu "Copy-Paste"-Artefakten reichen, bei denen Subjekte aufgrund von Pose-Locking starr wirken. Eine aktuelle Forschungsarbeit stellt hierzu das WildActor-Framework vor, das diese Probleme durch einen neuartigen Ansatz und einen umfangreichen Datensatz adressiert.
Die Produktion von qualitativ hochwertigen Videos erfordert, dass digitale Akteure ihre Identität über dynamische Aufnahmen, wechselnde Blickwinkel und komplexe Bewegungen hinweg strikt konsistent halten. Aktuelle Diffusions-Transformer (DiT)-Modelle, wie sie beispielsweise von OpenAI (Sora) oder Kuaishou (Kling) entwickelt wurden, erreichen zwar einen hohen Grad an Fotorealismus, haben jedoch oft Schwierigkeiten, die Identitätskonsistenz bei wechselnden Blickwinkeln zu gewährleisten. Dies kann zu "Identitätsdrift" führen, bei der Gesichtsmerkmale oder Kleidungstexturen inkonsistent werden.
Zwei Hauptbeschränkungen prägen die bisherigen Ansätze: Erstens sind viele Methoden gesichtszentriert, was dazu führt, dass die Körperkonsistenz vernachlässigt wird und der Effekt eines "schwebenden Kopfes" entsteht. Zweitens führen Methoden, die das gesamte Referenzbild naiv kodieren, oft zu "Pose-Locking", bei dem die generierte Figur in ihrer Bewegung eingeschränkt ist. Ein weiterer limitierender Faktor ist der Mangel an umfangreichen Datensätzen, die eine blickwinkelinvariante Repräsentation von Menschen in unkontrollierten Umgebungen ermöglichen.
Um diese Datenlücke zu schließen, wurde der Datensatz Actor-18M entwickelt. Dieser umfasst über 1,6 Millionen hochwertige Videos und 18 Millionen zugehörige menschliche Bilder. Im Gegensatz zu generischen Sammlungen bietet Actor-18M mehrere Referenzbilder desselben Subjekts, die verschiedene Blickwinkel, Umgebungen und Bewegungen innerhalb der Videos abdecken. Dies ermöglicht es Modellen, identitätskonsistente Repräsentationen unter unbegrenzten Bedingungen zu lernen.
Die Erstellung von Actor-18M erfolgte durch eine zweistufige Filterpipeline, die sowohl grobe Filterung mittels Gesichtsähnlichkeit (ArcFace) als auch eine feinkörnige Filterung unter Verwendung von dichter Punktverfolgung (CoTracker) und CLIP-basierter Ähnlichkeitsprüfung umfasste. Dies gewährleistet eine strikte Subjektkonsistenz über alle Frames hinweg. Der Datensatz ist in drei spezialisierte Untergruppen unterteilt, um unterschiedliche Herausforderungen anzugehen:
Diese Strukturierung und Anreicherung des Datensatzes zielt darauf ab, eine robuste Grundlage für die unbegrenzte Videogenerierung zu schaffen, die eine ausgewogenere Abdeckung aller Blickwinkel ermöglicht und den starken frontalen Blickwinkel-Bias in Rohdaten reduziert.
Aufbauend auf Actor-18M, wurde WildActor als Framework für die beliebige blickwinkelkonditionierte menschliche Videogenerierung konzipiert. Es integriert zwei Schlüsselkomponenten:
Das Trainingsschema von WildActor fördert eine komplementäre Referenzabtastung, indem es eine Viewpoint-Adaptive Monte Carlo Sampling Strategie nutzt. Diese Strategie gewichtet Referenzbilder dynamisch neu, um eine vielfältige Abdeckung zu ermöglichen und redundante Ansichten zu vermeiden. Dadurch lernt das Modell eine blickwinkelunabhängige Robustheit, was zu einer hohen Konsistenz selbst in anspruchsvollen Szenarien wie Rückansichten führt.
WildActor wurde auf dem neu etablierten Actor-Bench evaluiert, der 75 verschiedene Subjekte in drei Konditionierungseinstellungen umfasst: kanonische Drei-Ansichten, beliebiger Blickwinkel und In-the-Wild. Die Bewertung erfolgte entlang zweier Achsen: sequentielle Narrative (zur Beurteilung der Identitätskonsistenz in langen Videos) und kontextuelle Generalisierung (zur Bewertung der Generalisierungsfähigkeit in realen Szenarien).
Qualitative und quantitative Vergleiche zeigen, dass WildActor bestehende Methoden signifikant übertrifft. Insbesondere erreicht es eine überlegene Ganzkörperkonsistenz und semantische Ausrichtung. Während kommerzielle Modelle wie Vidu Q2 und Kling 1.6 visuell flüssige Videos mit starker Bewegungsdynamik produzieren, zeigen sie oft eine geringere Kontrolle über Blickwinkelübergänge oder prompt-spezifische Attribute. WildActor hingegen bewahrt eine robustere Ganzkörperkonsistenz bei gleichzeitiger präziser Einhaltung von Änderungen in Blickwinkel, Kamerabewegung und Aktion.
In Ablationsstudien wurde die Wirksamkeit der Datensatz- und Samplingstrategie sowie der Modellkomponenten AIPA und I-RoPE bestätigt. Es zeigte sich, dass die Viewpoint-Adaptive Sampling-Strategie die durchschnittliche Körperkonsistenz erheblich steigert und selbst bei herausfordernden Rückansichten eine hohe Konsistenz aufrechterhält. AIPA verbessert die Gesichtserhaltung, während I-RoPE durch die explizite Kodierung der Unterscheidung zwischen Referenz- und Video-Features einen scharfen Rückgang der Körperkonsistenz verhindert.
Das WildActor-Framework und der dazugehörige Actor-18M-Datensatz stellen einen bedeutenden Fortschritt in der identitätserhaltenden Videogenerierung dar. Durch die Kombination eines umfangreichen, sorgfältig kuratierten Datensatzes mit innovativen Architekturkomponenten wie AIPA und I-RoPE adressiert WildActor zentrale Herausforderungen, mit denen bestehende Methoden zu kämpfen haben. Die Fähigkeit, konsistente Ganzkörperidentitäten über dynamische Aufnahmen, große Blickwinkelübergänge und umfangreiche Bewegungen hinweg zu bewahren, eröffnet neue Möglichkeiten für Anwendungen in der Filmproduktion, im Gaming und in der Erstellung digitaler Inhalte. Zukünftige Forschungsarbeiten könnten sich darauf konzentrieren, die Methode auf Multi-Personen-Szenarien mit komplexen Interaktionen auszudehnen, um die Anwendbarkeit weiter zu erhöhen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen