Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Fähigkeit von Künstlicher Intelligenz, realistische Videos zu generieren, hat in den letzten Jahren beeindruckende Fortschritte gemacht. Insbesondere die Vision-Language Models (VLMs) zeigen ein immenses Potenzial, visuelle Umgebungen zu interpretieren und zu beschreiben. Dennoch offenbart eine aktuelle Analyse, dass die realistische Darstellung menschlicher Bewegungen in diesen KI-generierten Videos weiterhin eine signifikante Herausforderung darstellt. Um diese Lücke zu schließen und die Qualität von Video-Generierungsmodellen im Hinblick auf menschliche Bewegungen präziser zu bewerten, wurde ein umfangreiches Datenset menschlicher Präferenzen erstellt.
VLMs sind in der Lage, visuelle Informationen zu verarbeiten und mit Sprachmodellen zu verknüpfen. Dies ermöglicht es ihnen, aus Textbeschreibungen Bilder und kurze Videosequenzen zu erzeugen. Jedoch, wenn es um die Komplexität menschlicher Bewegungen geht – sei es Gehen, Tanzen, Sprechen oder sportliche Aktivitäten – stoßen aktuelle Modelle oft an ihre Grenzen. Subtile Aspekte wie Gewichtsverlagerung, Fußkontakt, natürliche Rhythmen, Lippensynchronisation, feine Mimik oder die Koordination mehrerer Personen bleiben schwierig akkurat zu reproduzieren. Forscher betonen, dass automatisierte Bewertungssysteme (wie GPT-4V oder Gemini) diese feinen Fehler oft übersehen, während menschliche Beobachter sie sofort erkennen. Dies unterstreicht die Notwendigkeit einer menschzentrierten Evaluation, um die tatsächliche Qualität der generierten Bewegungen zu beurteilen.
Um eine fundierte Bewertung der Fähigkeiten von KI-Videomodellen bei der Darstellung menschlicher Bewegungen zu ermöglichen, wurde das Datenset VidPrefMotion (v2) entwickelt. Dieses Datenset, das auf der Plattform Hugging Face verfügbar ist, stellt mit 57.866 paarweisen menschlichen Präferenzlabels das größte öffentlich zugängliche Datenset dar, das sich spezifisch auf menschliche Bewegungen in KI-generierten Videos konzentriert. Die Daten wurden von Tausenden von Annotatoren gesammelt, die vier führende Videogenerierungsmodelle miteinander verglichen haben: Google Veo 3 Fast, Grok Imagine von xAI, Kling 1.5 Pro von Kuaishou und Luma Ray 2 von Luma Labs.
Die Bewertung erfolgte über drei zentrale Qualitätsdimensionen:
Das Datenset umfasst 11 verschiedene Bewegungskategorien, von denen jede spezifische Herausforderungen für KI-Modelle darstellt:
Die Analyse der menschlichen Präferenzlabels ergab klare Unterschiede in der Leistung der getesteten Modelle:
Diese Ergebnisse deuten darauf hin, dass Google Veo 3 Fast derzeit die konsistenteste und qualitativ hochwertigste Leistung bei der Generierung menschlicher Bewegungen bietet, insbesondere in Bezug auf Kohärenz und die Einhaltung der Prompt-Anweisungen. Es ist jedoch zu beachten, dass keines der Modelle eine perfekte Punktzahl erreicht hat, was die fortbestehenden Herausforderungen in diesem Bereich unterstreicht.
Die Erstellung des Datensets umfasste 417 Prompts, die eine strukturierte Vielfalt über die 11 Bewegungskategorien hinweg aufwiesen. Alle Videos waren 4–5 Sekunden lang, hatten eine Auflösung von 540p–720p und ein Seitenverhältnis von 16:9. Die Annotation erfolgte mobilfreundlich über das SDK der Konsumenten-App von Datapoint AI, wobei die Annotatoren gezwungen waren, zwischen zwei Optionen zu wählen und dimensionsspezifische Fragen zu beantworten. Um Verzerrungen zu minimieren, wurden die Videos zufällig zwischen linker und rechter Position ausgetauscht. Eine mediane Antwortzeit von 14,9 Sekunden bestätigte, dass die Annotatoren beide Videos vor ihrer Entscheidung vollständig angesehen haben.
Die Forschung im Bereich der generativen KI für Bewegungen schreitet stetig voran. Ein Beispiel hierfür ist das ViMoGen-Framework, das darauf abzielt, die Generalisierungsfähigkeit von 3D-Mensch-Bewegungsgenerierung zu verbessern. Dieses Framework kombiniert hochwertige Motion-Capture-Daten (MoCap) mit semantischem Wissen aus großen Videogenerierungsmodellen. Durch einen dualen Ansatz, der einen Text-zu-Bewegung (T2M)-Zweig mit einem Bewegungs-zu-Bewegung (M2M)-Zweig vereint, soll eine verbesserte Bewegungsqualität und Generalisierung erreicht werden. Der M2M-Zweig nutzt Video-Generierungsmodelle, um die semantische Abdeckung zu erweitern, während der T2M-Zweig auf präzise MoCap-Daten für die Bewegungsdynamik setzt. Ein adaptiver Auswahlmechanismus entscheidet, welcher Zweig für eine gegebene Prompt am besten geeignet ist, um eine Balance zwischen Robustheit und Generalisierungsfähigkeit zu finden. Eine leichtere Variante, ViMoGen-light, destilliert dieses Wissen, um den Rechenaufwand zu reduzieren.
Trotz dieser Fortschritte gibt es weiterhin Herausforderungen. Die Generierung von Mehrpersonen-Interaktionen und komplexen, hochdynamischen Bewegungen bleibt schwierig. Zudem besteht ein Kompromiss zwischen überragender Generalisierung und der Erzielung der höchsten Punktwerte bei spezifischen Qualitätsmetriken. Artefakte in visuellen MoCap-Daten und der begrenzte Dynamikbereich generierter Videos tragen zu diesen Einschränkungen bei.
Die kontinuierliche Integration menschlicher Präferenzdaten in die Trainings- und Evaluierungsprozesse ist entscheidend, um KI-Modelle zu entwickeln, die menschliche Bewegungen nicht nur technisch korrekt, sondern auch visuell ansprechend und physikalisch plausibel darstellen können. Die Arbeit mit Datensätzen wie VidPrefMotion (v2) bietet eine wichtige Grundlage, um diese Ziele zu erreichen und die nächste Generation von KI-Videogenerierungsmodellen zu formen.
Für Unternehmen, die im B2B-Bereich tätig sind und auf KI-gestützte Videoerstellung setzen, sind diese Entwicklungen von großer Relevanz. Die Fähigkeit, realistische und überzeugende menschliche Bewegungen in Videos zu generieren, ist entscheidend für Anwendungen wie:
Die Kenntnis der Stärken und Schwächen aktueller Modelle ermöglicht es Unternehmen, fundierte Entscheidungen bei der Auswahl und Implementierung von KI-Videogenerierungstools zu treffen. Die laufende Forschung und die Verfügbarkeit von detaillierten Evaluationsdaten bieten eine wertvolle Grundlage, um die Erwartungen an KI-generierte Inhalte realistisch einzuschätzen und die Entwicklung zukünftiger Anwendungen aktiv mitzugestalten.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen