Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Die Generierung realistischer menschlicher Videos ist nach wie vor eine Herausforderung. Die effektivsten Methoden verwenden derzeit menschliche Bewegungssequenzen als Steuersignal. Bestehende Ansätze nutzen oft vorhandene Bewegungen aus anderen Videos, was die Anwendung auf bestimmte Bewegungstypen und die Übereinstimmung mit der Gesamtszene einschränkt. Ein neuer Forschungsansatz, Move-in-2D, beschäftigt sich mit der Generierung von Bewegungssequenzen, die auf einem 2D-Hintergrundbild basieren, anstatt auf vorgegebenen Bewegungssequenzen.
Move-in-2D verwendet ein Diffusionsmodell, das sowohl ein Szenenbild als auch eine Textbeschreibung als Eingabe akzeptiert und eine auf die Szene zugeschnittene Bewegungssequenz erzeugt. Dieser Ansatz ermöglicht eine zweiphasige Pipeline zur Generierung menschlicher Videos. In der ersten Phase werden menschliche Posen mithilfe einer Vorlagenpriorität positioniert, wodurch die Körperartikulation erhalten bleibt und eine plausible Bewegungssequenz generiert wird. Diese generierte Bewegung dient dann als Steuersignal für die nachfolgende Videogenerierung.
Im Vergleich zu Methoden, die auf externen Bewegungssequenzen beruhen, kann die 2D-bedingte Bewegungserzeugung Sequenzen erstellen, die konsistent mit dem Zielhintergrund und der Textbeschreibung übereinstimmen, ohne durch bestimmte Bewegungstypen oder minimale globale Bewegungen eingeschränkt zu sein. Dies erweitert den Anwendungsbereich gegenüber bisherigen Ansätzen, die entweder nur auf Textprompts basieren oder 3D-Szenen benötigen, erheblich.
Die Umsetzung dieses neuartigen Ansatzes bringt einige Herausforderungen mit sich. Erstens erfordert das Training des Modells einen Datensatz mit menschlichen Bewegungssequenzen, Textbeschreibungen der Bewegung und Bildern, die den Hintergrund darstellen. Zweitens ist es unklar, wie das Netzwerk effektiv auf Text- und Szenenbildeeingaben konditioniert werden kann.
Um diesen Herausforderungen zu begegnen, wurde ein großer Videodatensatz aus internen Datenquellen von Open-Domain-Internetvideos zusammengestellt. Die Videos wurden gefiltert, um einen statischen Hintergrund zu gewährleisten, sodass jeder ausgewählte Frame die Szene während der gesamten Bewegungssequenz zuverlässig darstellen kann. Die menschliche Bewegung wurde mithilfe eines modernen 3D-Posenschätzungsverfahrens kommentiert. Inspiriert vom In-Context-Learning in großen Sprachmodellen (LLMs) wird eine ähnliche Strategie verwendet, um Szenen- und Texteingaben in einen gemeinsamen Token-Raum zu konvertieren und sie in ein Transformer-basiertes Diffusionsmodell für die Ausgabe zu integrieren.
Die Konditionierung auf 2D-Bilder bietet mehrere Vorteile. Ein einzelnes 2D-Szenenbild liefert semantische Informationen und Informationen zum räumlichen Layout der Zielumgebung aus einer 2D-Perspektive. Dies ermöglicht die Generierung von menschlicher Bewegung, die der Umgebung entspricht, ohne dass eine 3D-Szenenrekonstruktion erforderlich ist, insbesondere in Fällen, in denen die Bewegung letztendlich wieder auf eine 2D-Ebene projiziert werden soll, z. B. bei der Videogenerierung.
Darüber hinaus ermöglicht die Konditionierung auf 2D-Bilder eine größere Vielfalt an verfügbaren Szenen, da zahlreiche Online-Videos menschliche Aktivitäten in verschiedenen Umgebungen enthalten. Beispielsweise können Außenszenen, die mit 3D-Bewegungserzeugungsnetzwerken nur schwer zu verwenden sind, einfach als 2D-Bilder dargestellt und vom vorgeschlagenen Ansatz verarbeitet werden.
Die generierten Bewegungssequenzen können die Qualität der menschlichen Bewegung bei der Videogenerierung verbessern. Experimente haben gezeigt, dass diese Methode menschliche Bewegungen effektiv vorhersagt, die nach der Projektion mit dem Szenenbild übereinstimmen. Die 2D-basierte Bewegungserzeugung eröffnet neue Möglichkeiten für realistischere und vielfältigere menschliche Bewegungen in virtuellen Umgebungen. Zukünftige Forschung könnte sich auf die Verbesserung der Datensätze und die Verfeinerung der Algorithmen konzentrieren, um noch überzeugendere Ergebnisse zu erzielen.
Bibliographie Huang, H.-P., Zhou, Y., Wang, J.-H., Liu, D., Liu, F., Yang, M.-H., & Xu, Z. (2024). Move-in-2D: 2D-Conditioned Human Motion Generation. arXiv preprint arXiv:2412.13185. https://arxiv.org/abs/2412.13185 https://arxiv.org/html/2412.13185v1 https://www.catalyzex.com/paper/move-in-2d-2d-conditioned-human-motion https://arxiv-sanity-lite.com/?rank=pid&pid=2412.13185 https://www.zhuanzhi.ai/paper/bb8d40794428ccf5d83767b378c20704 https://www.researchgate.net/publication/387141095_Motion-2-to-3_Leveraging_2D_Motion_Data_to_Boost_3D_Motion_Generation https://holistic-motion2d.github.io/?ref=aiartweekly https://openaccess.thecvf.com/content/WACV2024/papers/Ribeiro-Gomes_MotionGPT_Human_Motion_Synthesis_With_Improved_Diversity_and_Realism_via_WACV_2024_paper.pdf https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/00100.pdf https://paperreading.club/page?id=273502Entdecken Sie die Vorteile gegenüber ChatGPT Plus
Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.
Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.
❌ Kein strukturierter Dokumentenvergleich
❌ Keine Bearbeitung im Dokumentkontext
❌ Keine Integration von Unternehmenswissen
✅ Gezielter Dokumentenvergleich mit Custom-Prompts
✅ Kontextbewusste Textbearbeitung im Editor
✅ Wissensbasierte Analyse & Zusammenfassungen
Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.
❌ Nur ein Modellanbieter (OpenAI)
❌ Keine Modellauswahl pro Use Case
❌ Keine zentrale Modellsteuerung für Teams
✅ Zugriff auf über 50 verschiedene KI-Modelle
✅ Modellauswahl pro Prompt oder Assistent
✅ Zentrale Steuerung auf Organisationsebene
❌ Keine echte Teamkollaboration
❌ Keine Rechte- oder Rollenverteilung
❌ Keine zentrale Steuerung oder Nachvollziehbarkeit
✅ Teamübergreifende Bearbeitung in Echtzeit
✅ Granulare Rechte- und Freigabeverwaltung
✅ Zentrale Steuerung & Transparenz auf Organisationsebene
Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.
Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.
🎯 Kostenlose Demo buchenLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen