Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Generierung menschlicher Bewegungen aus Textaufforderungen hat in den letzten Jahren erhebliche Fortschritte gemacht. Dennoch standen bestehende Methoden oft vor der Herausforderung, eine feingranulare Kontrolle über einzelne Körperteile zu ermöglichen. Dies lag primär an der mangelnden Verfügbarkeit von detaillierten, auf Teilebene annotierten Bewegungsdatensätzen. Eine neue Entwicklung namens FrankenMotion verspricht hier Abhilfe und eröffnet neue Möglichkeiten für Anwendungen in der virtuellen Realität, im Gaming und in der Robotik.
Traditionelle Ansätze zur Bewegungsgenerierung basierten häufig auf Beschreibungen auf Sequenz- oder Aktionsebene. Das bedeutet, dass ganze Bewegungsabläufe oder spezifische Aktionen (z.B. "Gehen", "Sitzen") als Einheit generiert wurden. Die Fähigkeit, einzelne Körperteile wie Arme, Beine oder den Kopf unabhängig voneinander zu steuern und gleichzeitig einen kohärenten Gesamtbewegungsablauf zu gewährleisten, war jedoch begrenzt. Dies resultierte in generierten Bewegungen, die zwar realistisch erscheinen konnten, aber oft nicht die Präzision oder die Anpassungsfähigkeit boten, die für komplexe, interaktive Szenarien erforderlich ist.
Ein Kernstück der FrankenMotion-Entwicklung ist die Erstellung des hochwertigen FrankenStein-Datensets. Dieses Datenset zeichnet sich durch atomare, zeitlich abgestimmte Textannotationen auf Teilebene aus. Im Gegensatz zu früheren Datensätzen, die entweder synchronisierte Teilbeschriftungen mit festen Zeitsegmenten bereitstellten oder sich ausschließlich auf globale Sequenzlabels stützten, erfasst FrankenStein asynchrone und semantisch unterschiedliche Teilbewegungen mit einer feinen zeitlichen Auflösung.
Die Erstellung dieses Datensets wurde durch den Einsatz von Large Language Models (LLMs) ermöglicht, die in der Lage sind, bestehende Bewegungsdaten zu analysieren und daraus detaillierte, per-Frame-Annotationen für einzelne Körperteile abzuleiten. Dieser Ansatz, implementiert durch den sogenannten FrankenAgent, überwindet die prohibitive Kostenbarriere manueller, detaillierter Frame-für-Frame-Annotationen. Das FrankenStein-Datenset umfasst 39 Stunden Bewegungsdaten und beinhaltet etwa 15.700 Sequenz-, 31.500 Aktions- und 46.100 Teil-Annotationen.
Basierend auf dem FrankenStein-Datenset wurde FrankenMotion, ein diffusionsbasiertes, teilbewusstes Bewegungsgenerierungs-Framework, entwickelt. Dieses Modell ermöglicht es, jeden Körperteil durch eine eigene, zeitlich strukturierte Textaufforderung zu steuern. Die Architektur ist ein Transformer-basiertes Diffusionsmodell, das auf drei Granularitätsebenen konditioniert werden kann:
Das Modell lernt die komplexen räumlichen und zeitlichen Beziehungen zwischen verschiedenen Körperteilen und hochrangigen Aktionssemantiken. Dies wird durch ein gemeinsames Embedding für Sequenz-, Aktions-, Teil-Ebenen-Text und Bewegung erreicht. Textmerkmale werden mittels CLIP extrahiert und durch PCA reduziert. Eine Maskierungsstrategie während des Trainings, bei der Textmerkmale bei unbekannten Labels auf Null gesetzt oder stochastisch maskiert werden, erhöht die Robustheit gegenüber unvollständigen Konditionierungen.
Experimente zeigen, dass FrankenMotion alle früheren Baseline-Modelle, die für diesen Anwendungsfall angepasst und neu trainiert wurden, übertrifft. Die Evaluierung erfolgte anhand von Metriken für semantische Korrektheit (R-Precision, M2T) und Realismus (Frechet Inception Distance (FID), Diversity). FrankenMotion erzielt konsistent bessere Ergebnisse in Bezug auf Bewegungsqualität und Konsistenz mit den Eingabetexten. Es ist in der Lage, komplexe Bewegungen, die während des Trainings nicht explizit gesehen wurden, zu komponieren.
Im Vergleich zu adaptierten State-of-the-Art-Methoden wie UniMotion, STMC und DART zeigte sich Folgendes:
FrankenMotion hingegen generiert feingranulare Bewegungen, die präzise durch Körperteile gesteuert werden und gleichzeitig die Kohärenz mit den hochrangigen Semantiken von atomaren Aktionen und Sequenz-Level-Text beibehalten.
Dank seines modularen Designs und der spärlichen Struktur des Datensatzes unterstützt FrankenMotion eine flexible Konditionierung während der Inferenz. Nutzer können die Bewegung auf verschiedenen Granularitäten steuern – sei es ein dominanter Körperteil, eine aktionsbezogene Phrase oder eine einzelne Sequenzbeschreibung. Dies ermöglicht eine adaptive Kontrolle je nach verfügbarem Text oder Benutzerpräferenz.
Eine Limitation von FrankenMotion ist derzeit die Schwierigkeit, minutenlange Bewegungssequenzen in einem einzigen Durchgang zu generieren. Die Erweiterung der Fähigkeit, langfristige zeitliche Strukturen zu modellieren, wird ein wichtiger Forschungsbereich für zukünftige Arbeiten sein. Dennoch stellt FrankenMotion einen bedeutenden Fortschritt in der kompositorischen Bewegungsgenerierung dar und legt ein starkes Fundament für die Entwicklung noch präziserer und flexiblerer KI-gesteuerter Bewegungstools.
Bibliography: - Li, C., Xie, X., Cao, Y., Geiger, A., & Pons-Moll, G. (2026). FrankenMotion: Part-level Human Motion Generation and Composition. arXiv preprint arXiv:2601.10909. - Coral79.github.io. (2026). FrankenMotion - Chuqiao Li. Verfügbar unter: https://coral79.github.io/frankenmotion/ - Hugging Face. (2026). Daily Papers - Hugging Face. Verfügbar unter: https://huggingface.co/papers/date/2026-01-19 - HuggingFace Paper Explorer. (2026). HuggingFace Papers - Top Last 3 Days. Verfügbar unter: https://huggingface-paper-explorer.vercel.app/ - Yazdian, P. J., Liu, E., Lagasse, R., Mohammadi, H., Cheng, L., & Lim, A. (2024). MotionScript: Natural Language Descriptions for Expressive 3D Human Motions. arXiv preprint arXiv:2312.12634. - Bian, Y., Zeng, A., Ju, X., Liu, X., Zhang, Z., Liu, W., & Xu, Q. (2024). MotionCraft: Crafting Whole-Body Motion with Plug-and-Play Multimodal Controls. arXiv preprint arXiv:2407.21136. - Sun, S., De Araujo, G., Xu, J., Zhou, S., Zhang, H., Huang, Z., You, C., & Xie, X. (2024). CoMA: Compositional Human Motion Generation with Multi-modal Agents. arXiv preprint arXiv:2412.07320.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen