Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Forschung im Bereich der künstlichen Intelligenz verzeichnet weiterhin signifikante Fortschritte, insbesondere im Bereich der generativen Modelle. Ein aktuelles Modell, MotionCtrl, sticht hervor, indem es die Echtzeit-Videogenerierung mit interaktiven Bewegungssteuerungen ermöglicht. Dieses Modell, das auf einer einzelnen NVIDIA H100 GPU mit 29 Bildern pro Sekunde (FPS) und einer Latenz von nur 0,4 Sekunden läuft, stellt einen bemerkenswerten Schritt in der Entwicklung von KI-gestützten Kreativwerkzeugen dar. Die Fähigkeit, Bewegungen in Echtzeit zu generieren und interaktiv zu steuern, eröffnet neue Möglichkeiten für Anwendungen in der Filmproduktion, Videospielentwicklung, virtuellen Realität und darüber hinaus.
Die Generierung kohärenter menschlicher Bewegungssequenzen, die auf vielfältige multimodale Eingaben reagieren, ist seit langem ein Ziel der KI-Forschung. Bestehende Vision-Language-Motion-Modelle (VLMMs) standen jedoch vor Herausforderungen, insbesondere in Bezug auf die Kontrollierbarkeit. Diese Schwierigkeiten umfassten die Bearbeitung unterschiedlicher menschlicher Befehle, die Initialisierung von Posen, die Generierung von Langzeit- oder unbekannten Bewegungen sowie die feingranulare Steuerung einzelner Körperteile.
Frühere Ansätze zur Text-zu-Bewegung-Generierung (T2M) lieferten oft unscharfe Ergebnisse oder waren auf vordefinierte Bewegungslängen beschränkt. GPT-basierte Methoden litten unter verzögerten Reaktionen und Akkumulation von Fehlern aufgrund diskretisierter, nicht-kausaler Tokenisierung. Die Skalierung von Daten für das Training großer Modelle war ebenfalls eine Hürde, da hochwertige Bewegungsdaten begrenzt sind.
MotionCtrl wurde entwickelt, um diese Limitationen zu überwinden. Es ist ein Echtzeit-Modell, das eine bisher unerreichte Kontrollierbarkeit bietet. Der Erfolg von MotionCtrl basiert auf mehreren Säulen:
Die Entwickler von MotionCtrl definieren „Kontrollierbarkeit“ anhand von fünf Schlüsselaspekten, die durch sorgfältige Datenkuratierung und die Gestaltung multipler Instruktionsaufgaben erreicht wurden:
Die Evaluierung von MotionCtrl erfolgte über eine Reihe von Bewegungs- und Text-zu-Bewegung-Aufgaben. Metriken wie der Frechet Inception Distance (FID) zur Bewertung der Bewegungsqualität, die Motion-retrieval Precision (R-Precision) zur Messung der Text-Bewegungs-Ausrichtung und der Multimodal Distance (MMDist) zur Quantifizierung der Distanz zwischen angepassten Text-Bewegungs-Paaren wurden herangezogen. Für die Bewegungsrekonstruktion und -vorhersage wurde der Mean Per Joint Position Error (MPJPE) verwendet.
In Vergleichen mit bestehenden Methoden auf dem HumanML3D-Datensatz zeigte MotionCtrl, insbesondere mit PRQ, eine verbesserte Leistung in Bezug auf Genauigkeit und Wiedergabetreue, mit einem reduzierten FID-Score. Auch bei der I2M-Aufgabe übertraf MotionCtrl andere LLM-basierte Ansätze, was auf die effektivere Bewegungsinstruktionsabstimmung und die Einführung von PRQ zurückgeführt wird.
Besonders hervorzuheben ist die Leistungssteigerung bei der Generierung unbekannter Bewegungen (I2U) und der Steuerung auf Teilebene (I2PM) durch die Nutzung des umfangreichen HuMo100M-Datensatzes und der PRQ-Methode.
Die Integration visueller Modalitäten und Multi-Task-Trainings erwies sich als vorteilhaft. Visualisierungen, die eine schwache Ausrichtung zwischen visuellen und textuellen Kontexten bieten, sind besonders nützlich, wenn Bewegungsdaten unzuverlässig sind, da sie wertvolle Supervision für das Bewegungsverständnis liefern. Das Multi-Task-Training, bei dem verschiedene Bewegungsaufgaben kombiniert werden, erhöht zudem die Kontrollierbarkeit der Bewegungsgenerierung, selbst wenn einzelne Aufgaben nur geringfügig zur Gesamtleistung beitragen.
MotionCtrl repräsentiert einen bedeutenden Fortschritt in der Echtzeit-Videogenerierung und Bewegungssteuerung mittels KI. Durch die Kombination eines umfangreichen Datensatzes, einer innovativen Quantisierungsmethode und einer optimierten Architektur adressiert es zentrale Herausforderungen der Kontrollierbarkeit und Effizienz. Die Fähigkeit, komplexe menschliche Bewegungen in Echtzeit und mit präziser Steuerung zu generieren, eröffnet neue Horizonte für die Anwendung von generativer KI in einer Vielzahl von Branchen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen