KI für Ihr Unternehmen – Jetzt Demo buchen

Neues Framework zur Charakterbildanimation mit DreamActor-M2

Kategorien:
No items found.
Freigegeben:
February 2, 2026

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • DreamActor-M2 ist ein neues Framework zur Animation von Charakterbildern, das hochauflösende Videos durch die Übertragung von Bewegung aus einer Sequenz auf ein statisches Referenzbild erzeugt.
    • Es adressiert zwei Hauptprobleme bisheriger Methoden: den Kompromiss zwischen Identitätserhaltung und Bewegungskonsistenz sowie die starke Abhängigkeit von expliziten Pose-Informationen.
    • Das Framework nutzt spatiotemporales In-Context Learning und ein zweistufiges Trainingsparadigma.
    • Die erste Stufe, "Pose-based DreamActor-M2", verwendet augmentierte 2D-Skelette als Bewegungskontext und integriert eine zielorientierte Textführung sowie Posen-Augmentierung.
    • Die zweite Stufe, "End-to-End DreamActor-M2", ermöglicht die direkte Verarbeitung von Roh-RGB-Frames als Bewegungssignale und verwendet eine selbst-bootstrappte Datensynthese.
    • Ein neuer Benchmark namens "AW Bench" wurde eingeführt, um die Generalisierungsfähigkeit des Frameworks über verschiedene Charaktertypen und Bewegungsszenarien hinweg zu bewerten.
    • DreamActor-M2 zeigt überlegene visuelle Qualität und robuste domänenübergreifende Generalisierung im Vergleich zu bestehenden Ansätzen.

    Die digitale Animation von Charakterbildern stellt einen Bereich dar, der kontinuierlich Weiterentwicklungen erfährt. Ein aktueller Fortschritt in diesem Feld ist das Framework DreamActor-M2, welches darauf abzielt, hochauflösende Videos zu synthetisieren, indem es Bewegungen von einer sogenannten "Driving Sequence" auf ein statisches Referenzbild überträgt. Diese Entwicklung ist unter anderem für Anwendungen im Bereich der digitalen Menschen von Bedeutung.

    Herausforderungen in der Charakterbildanimation

    Bestehende Methoden zur Charakterbildanimation standen bisher vor zwei wesentlichen Herausforderungen. Zum einen gab es oft einen Zielkonflikt zwischen der Erhaltung der Identität des Charakters und der Konsistenz der übertragenen Bewegung. Dies führte dazu, dass bei der Optimierung eines Aspekts der andere beeinträchtigt wurde. Zum anderen basierten viele Ansätze stark auf expliziten Pose-Vorannahmen, wie zum Beispiel Skelettdarstellungen. Diese Abhängigkeit erschwerte die Erfassung komplexer Dynamiken und limitierte die Generalisierungsfähigkeit auf nicht-humanoide oder arbiträre Charaktere.

    DreamActor-M2: Ein neuer Ansatz durch In-Context Learning

    DreamActor-M2 begegnet diesen Herausforderungen, indem es die Bewegungsbedingung als ein In-Context Learning-Problem neu interpretiert. Der Ansatz gliedert sich in ein zweistufiges Paradigma, das auf einem vortrainierten Latent Diffusion Model (LDM) aufbaut, konkret Seedance 1.0, welches die MMDiT-Architektur nutzt.

    Spatiotemporale In-Context Motion Injection

    Ein Kernstück des Frameworks ist die spatiotemporale In-Context Learning (ICL)-Strategie. Diese Strategie soll die Einschränkungen herkömmlicher Bewegungsinjektionsmethoden überwinden, die oft zu Identitätsverlust bei der Posenanpassung, Detailverlust bei der Cross-Attention und geringer räumlicher Genauigkeit bei zeitlich basierter ICL führten. DreamActor-M2 erstellt eine vereinheitlichte Eingabedarstellung, indem es Referenzerscheinungs- und Bewegungsinformationen in einem latenten Raum fusioniert. Dies ermöglicht dem Modell, räumliche Identität und zeitliche Dynamik gemeinsam zu berücksichtigen und dabei die generativen Fähigkeiten von Grundmodellen zu nutzen.

    Zweistufiges Trainingsparadigma

    Das Training von DreamActor-M2 erfolgt in zwei Phasen:

    1. Pose-based DreamActor-M2: In dieser ersten Stufe werden augmentierte 2D-Skelette als anfänglicher Bewegungskontext in einem selbstüberwachten Trainingsansatz verwendet. Das Modell wird darauf trainiert, Videos zu rekonstruieren, wobei eine Posen-Sequenz als treibendes Signal und das erste Frame als Referenzbild dient.
      • LoRA Fine-tuning: Um die Anpassung zu optimieren, werden leichte LoRA-Module in die Feed-Forward-Schichten des eingefrorenen Backbones eingefügt.
      • Target-Oriented Text Guidance (TOTG): Zur Kompensation potenzieller semantischer Abschwächung durch Posen-Augmentierung wird ein multimodales Large Language Model (MLLM) eingesetzt. Dieses analysiert das Driving Video und das Referenzbild, um bewegungs- und erscheinungsbezogene Semantik in einen zielorientierten Prompt zu fusionieren.
      • Posen-Augmentierung: Um Identitätsverlust zu mindern und die Bewegungsdynamik zu erhalten, werden Strategien wie zufällige Skalierung der Knochenlänge und bounding-box-basierte Normalisierung angewendet.
    2. End-to-End DreamActor-M2: Diese zweite Stufe zielt darauf ab, die Abhängigkeit von expliziten Posen-Estimationsmodellen zu eliminieren. Das Modell lernt, Roh-RGB-Frames direkt als Bewegungssignale zu verarbeiten.
      • Modelloptimierung: Das Modell wird mit dem vortrainierten Pose-based DreamActor-M2 warmgestartet, um die Konvergenz zu beschleunigen und robuste Bewegungspriors zu übernehmen.
      • Self-Bootstrapped Data Synthesis und Qualitätsfilterung: Um das Problem fehlender großskaliger, identitätsübergreifender gepaarter Daten zu lösen, wird das vortrainierte Pose-based DreamActor-M2 genutzt, um hochwertige pseudo-gepaarte Überwachungsdaten zu generieren. Eine zweistufige Qualitätsfilterung, bestehend aus automatischer Bewertung und manueller Verifizierung, stellt die Zuverlässigkeit sicher.

    AW Bench: Ein neuer Standard für die Bewertung

    Zur umfassenden Bewertung der universellen Generalisierungsfähigkeit von DreamActor-M2 wurde der "Animate in the Wild" Benchmark (AW Bench) eingeführt. Dieser Benchmark umfasst 100 Driving Videos und 200 Referenzbilder, die eine breite Palette von Charaktertypen (Menschen, Tiere, Zeichentrickfiguren) und Bewegungsmustern (Gesicht, Oberkörper, Ganzkörper, Tanz, Alltagsaktivitäten, Multi-Subjekt-Szenarien) abdecken.

    Ergebnisse und Ausblick

    Umfassende Experimente auf dem AW Bench haben gezeigt, dass DreamActor-M2 eine überlegene Leistung in Bezug auf visuelle Wiedergabetreue und robuste domänenübergreifende Generalisierung erreicht. Das Framework übertrifft bestehende Baselines sowohl bei automatischen Bewertungsmetriken (Bildqualität, Bewegungssmoothness, zeitliche Konsistenz, Erscheinungskonsistenz) als auch in menschlichen Bewertungen. Die Analyse des GSB-Vergleichs bestätigt zudem eine wettbewerbsfähige und führende subjektive Leistung im Vergleich zu kommerziellen Produkten. Ablationsstudien untermauern die Bedeutung des spatiotemporalen ICL, der Posen-Augmentierung und der zielorientierten Textführung für die Verbesserung der Generierungsqualität und die Wahrung der Charakteridentität.

    Diese Entwicklungen könnten weitreichende Auswirkungen auf Bereiche wie die Filmproduktion, Videospielentwicklung, virtuelle Realität und personalisierte digitale Inhalte haben, indem sie die Erstellung realistischer und vielseitiger Charakteranimationen vereinfachen und verbessern.

    Bibliography: - Luo, M., Liang, S., Rong, Z., Luo, Y., Hu, T., Hou, R., ... & Gao, M. (2026). DreamActor-M2: Universal Character Image Animation via Spatiotemporal In-Context Learning. arXiv preprint arXiv:2601.21716. - TheMoonlight.io. (n.d.). [Literature Review] DreamActor-M2: Universal Character Image Animation via Spatiotemporal In-Context Learning. Retrieved from https://www.themoonlight.io/review/dreamactor-m2-universal-character-image-animation-via-spatiotemporal-in-context-learning - ChatPaper. (n.d.). DreamActor-M2: Universal Character Image Animation. Retrieved from https://chatpaper.com/de/chatpaper/paper/231022 - Hugging Face. (n.d.). Daily Papers. Retrieved from https://huggingface.co/papers/week/2026-W06 - OpenReview. (n.d.). DreamActor-M2: Unleashing Pre-trained Video Models for Universal Character Image Animation via In-Context Fine-tuning. Retrieved from https://openreview.net/forum?id=IIBeaZNQaY - HuggingFace Paper Explorer. (n.d.). Top Last 3 Days. Retrieved from https://huggingface-paper-explorer.vercel.app/ - Papers.cool. (n.d.). Computer Vision and Pattern Recognition. Retrieved from https://papers.cool/arxiv/cs.CV?show=150 - Luo, Y., Rong, Z., Wang, L., Zhang, L., Hu, T., & Zhu, Y. (2025). DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance. arXiv preprint arXiv:2504.01724. - Grisoon.github.io. (n.d.). DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance. Retrieved from https://grisoon.github.io/DreamActor-M1/ - Hugging Face. (n.d.). Paper page - DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance. Retrieved from https://huggingface.co/papers/2504.01724

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen