Neuer Ansatz zur Generierung realistischer menschlicher Bewegungen aus 2D-Bildern und Textbeschreibungen

Kategorien:

No items found.

Freigegeben:

December 20, 2024

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Bewegungserzeugung mit 2D-Bildern und Textvorgaben: Ein neuer Ansatz für realistische menschliche Bewegungen in Videos

Die Generierung realistischer menschlicher Videos ist nach wie vor eine Herausforderung. Die effektivsten Methoden verwenden derzeit menschliche Bewegungssequenzen als Steuersignal. Bestehende Ansätze nutzen oft vorhandene Bewegungen aus anderen Videos, was die Anwendung auf bestimmte Bewegungstypen und die Übereinstimmung mit der Gesamtszene einschränkt. Ein neuer Forschungsansatz, Move-in-2D, beschäftigt sich mit der Generierung von Bewegungssequenzen, die auf einem 2D-Hintergrundbild basieren, anstatt auf vorgegebenen Bewegungssequenzen.

Move-in-2D verwendet ein Diffusionsmodell, das sowohl ein Szenenbild als auch eine Textbeschreibung als Eingabe akzeptiert und eine auf die Szene zugeschnittene Bewegungssequenz erzeugt. Dieser Ansatz ermöglicht eine zweiphasige Pipeline zur Generierung menschlicher Videos. In der ersten Phase werden menschliche Posen mithilfe einer Vorlagenpriorität positioniert, wodurch die Körperartikulation erhalten bleibt und eine plausible Bewegungssequenz generiert wird. Diese generierte Bewegung dient dann als Steuersignal für die nachfolgende Videogenerierung.

Im Vergleich zu Methoden, die auf externen Bewegungssequenzen beruhen, kann die 2D-bedingte Bewegungserzeugung Sequenzen erstellen, die konsistent mit dem Zielhintergrund und der Textbeschreibung übereinstimmen, ohne durch bestimmte Bewegungstypen oder minimale globale Bewegungen eingeschränkt zu sein. Dies erweitert den Anwendungsbereich gegenüber bisherigen Ansätzen, die entweder nur auf Textprompts basieren oder 3D-Szenen benötigen, erheblich.

Herausforderungen und Lösungsansätze

Die Umsetzung dieses neuartigen Ansatzes bringt einige Herausforderungen mit sich. Erstens erfordert das Training des Modells einen Datensatz mit menschlichen Bewegungssequenzen, Textbeschreibungen der Bewegung und Bildern, die den Hintergrund darstellen. Zweitens ist es unklar, wie das Netzwerk effektiv auf Text- und Szenenbildeeingaben konditioniert werden kann.

Um diesen Herausforderungen zu begegnen, wurde ein großer Videodatensatz aus internen Datenquellen von Open-Domain-Internetvideos zusammengestellt. Die Videos wurden gefiltert, um einen statischen Hintergrund zu gewährleisten, sodass jeder ausgewählte Frame die Szene während der gesamten Bewegungssequenz zuverlässig darstellen kann. Die menschliche Bewegung wurde mithilfe eines modernen 3D-Posenschätzungsverfahrens kommentiert. Inspiriert vom In-Context-Learning in großen Sprachmodellen (LLMs) wird eine ähnliche Strategie verwendet, um Szenen- und Texteingaben in einen gemeinsamen Token-Raum zu konvertieren und sie in ein Transformer-basiertes Diffusionsmodell für die Ausgabe zu integrieren.

Vorteile der 2D-Konditionierung

Die Konditionierung auf 2D-Bilder bietet mehrere Vorteile. Ein einzelnes 2D-Szenenbild liefert semantische Informationen und Informationen zum räumlichen Layout der Zielumgebung aus einer 2D-Perspektive. Dies ermöglicht die Generierung von menschlicher Bewegung, die der Umgebung entspricht, ohne dass eine 3D-Szenenrekonstruktion erforderlich ist, insbesondere in Fällen, in denen die Bewegung letztendlich wieder auf eine 2D-Ebene projiziert werden soll, z. B. bei der Videogenerierung.

Darüber hinaus ermöglicht die Konditionierung auf 2D-Bilder eine größere Vielfalt an verfügbaren Szenen, da zahlreiche Online-Videos menschliche Aktivitäten in verschiedenen Umgebungen enthalten. Beispielsweise können Außenszenen, die mit 3D-Bewegungserzeugungsnetzwerken nur schwer zu verwenden sind, einfach als 2D-Bilder dargestellt und vom vorgeschlagenen Ansatz verarbeitet werden.

Anwendung und Ausblick

Die generierten Bewegungssequenzen können die Qualität der menschlichen Bewegung bei der Videogenerierung verbessern. Experimente haben gezeigt, dass diese Methode menschliche Bewegungen effektiv vorhersagt, die nach der Projektion mit dem Szenenbild übereinstimmen. Die 2D-basierte Bewegungserzeugung eröffnet neue Möglichkeiten für realistischere und vielfältigere menschliche Bewegungen in virtuellen Umgebungen. Zukünftige Forschung könnte sich auf die Verbesserung der Datensätze und die Verfeinerung der Algorithmen konzentrieren, um noch überzeugendere Ergebnisse zu erzielen.

Bibliographie Huang, H.-P., Zhou, Y., Wang, J.-H., Liu, D., Liu, F., Yang, M.-H., & Xu, Z. (2024). Move-in-2D: 2D-Conditioned Human Motion Generation. arXiv preprint arXiv:2412.13185. https://arxiv.org/abs/2412.13185 https://arxiv.org/html/2412.13185v1 https://www.catalyzex.com/paper/move-in-2d-2d-conditioned-human-motion https://arxiv-sanity-lite.com/?rank=pid&pid=2412.13185 https://www.zhuanzhi.ai/paper/bb8d40794428ccf5d83767b378c20704 https://www.researchgate.net/publication/387141095_Motion-2-to-3_Leveraging_2D_Motion_Data_to_Boost_3D_Motion_Generation https://holistic-motion2d.github.io/?ref=aiartweekly https://openaccess.thecvf.com/content/WACV2024/papers/Ribeiro-Gomes_MotionGPT_Human_Motion_Synthesis_With_Improved_Diversity_and_Realism_via_WACV_2024_paper.pdf https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/00100.pdf https://paperreading.club/page?id=273502