Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die fortschreitende Entwicklung von Künstlicher Intelligenz hat in den letzten Jahren zu bemerkenswerten Fortschritten in verschiedenen Anwendungsbereichen geführt. Insbesondere große Sprachmodelle (Large Language Models, LLMs) zeigen beeindruckende Fähigkeiten im Verständnis und in der Generierung von Texten. Eine vielversprechende Weiterentwicklung sind omnimodale große Sprachmodelle (Omni-modal Large Language Models, OLLMs), die darauf abzielen, multimodales Verstehen und Generieren in einem einzigen Framework zu vereinen. Während bestehende OLLMs oft auf linguistische, akustische oder pixelbasierte visuelle Ausgaben fokussieren, bleibt die Integration von Sprache mit 3D-Gesichtsanimationen ein Bereich mit erheblichem, aber noch unerschlossenem Potenzial für natürlichere Interaktionen.
Die menschliche Kommunikation ist von Natur aus multimodal und geht über rein verbale Inhalte hinaus. In der direkten Kommunikation spielt eine zeitlich kohärente 3D-Gesichtsanimation, die mit der Sprache synchronisiert ist, eine entscheidende Rolle bei der Vermittlung nonverbaler Hinweise und der Verbesserung der Natürlichkeit der Interaktion. Dies ist besonders relevant für Anwendungen wie virtuelle Charaktere, digitale Avatare und verkörperte KI-Agenten.
Ein zentrales Problem bei der Integration von 3D-Gesichtsanimation in OLLMs ist die Repräsentationsinkongruenz. LLM-interne Zustände sind für die Verarbeitung diskreter, token-basierter semantischer Informationen optimiert, die eine schwach eingeschränkte zeitliche Struktur aufweisen. Im Gegensatz dazu erfordert 3D-Gesichtsanimation eine dichte und zeitlich flüssige Bewegung auf einer wesentlich feineren Zeitskala. Ein direktes Modellieren dieser beiden unterschiedlichen Repräsentationen erweist sich als schwierig zu optimieren, insbesondere bei begrenzten Datenmengen. Dies führt dazu, dass ein Decoder die feinkörnige Dynamik aus groben semantischen Merkmalen ableiten müsste, was eine schlecht konditionierte Abbildung zur Folge hätte und eine erheblich größere Modellkapazität sowie mehr gepaarte Sprach-Gesichts-Supervision für eine stabile Generierung erfordern würde.
Um diese Herausforderungen zu adressieren, wurde Expressive Omni (Ex-Omni) vorgeschlagen. Ex-Omni ist ein Open-Source-Framework, das OLLMs um sprachbegleitende 3D-Gesichtsanimationen erweitert. Die Gesichtsbewegungen werden dabei mithilfe von ARKit-52 Blendshape-Koeffizienten dargestellt und nicht-autoregressiv generiert. Ex-Omni ist in der Lage, Text- oder Sprachanweisungen zu folgen, um synchronisierte Sprache und Gesichtsanimationen End-to-End zu erzeugen.
Ex-Omni implementiert zwei komplementäre Designentscheidungen, um das Lernen zeitlich kohärenter Gesichtsanimationen aus LLM-Semantik zu erleichtern:
Zusätzlich zu diesen architektonischen Neuerungen wurde das InstructEx-Datenset entwickelt. InstructEx zielt darauf ab, die Augmentierung von OLLMs mit sprachbegleitenden 3D-Gesichtsanimationen zu erleichtern. Es umfasst eine vielfältige Datentypologie, darunter:
Dieses Design ermöglicht ein gemeinsames Lernen von Sprachverständnis, Spracherzeugung und 3D-Gesichtsgenerierung innerhalb eines vereinheitlichten Frameworks.
Umfassende Experimente demonstrieren, dass Ex-Omni im Vergleich zu bestehenden Open-Source-OLLMs eine wettbewerbsfähige Leistung erbringt. Das Framework ermöglicht eine stabile und synchronisierte Sprach- und Gesichtsanimation. Im Detail zeigen die Ergebnisse Folgendes:
Im Vergleich zu kaskadierten Baselines, die Omni-Backbones mit externen Gesichtsdecodern kombinieren (z.B. EmoTalk und UniTalker), erzeugt Ex-Omni Gesichtsanimationen, die enger an der Audio2Face-3D-Referenz ausgerichtet sind. Dies deutet auf die Effektivität der direkten Generierung von Gesichtsanimationen innerhalb eines vereinheitlichten Frameworks hin. Die nativ in Ex-Omni integrierte S2F-Generierung, bei der Gesichtsanimation und Sprache gemeinsam erzeugt werden, vermeidet potenzielle Informationsverluste, die durch die Zwischensprachgenerierung entstehen könnten, und führt zu natürlicheren Gesichtsanimationen. Eine höhere Fehlerrate auf dem Ex-A2F-EN-Benchmark könnte darauf zurückzuführen sein, dass Ex-Omni dazu neigt, längere Sprachantworten zu generieren, was die zeitliche Länge und Komplexität der entsprechenden Gesichtsanimationssequenzen erhöht. Die Verwendung von Audio2Face-3D für die Generierung von Blendshape-Annotationen und als Referenz für die Bewertung ist anerkannt, da es auf professionell erfassten Motion-Capture-Daten trainiert wurde und als starker Stellvertreter für hochwertige 3D-Gesichtsbewegungen gilt.
Menschliche A/B-Präferenzstudien ergänzen die automatische Bewertung. Ex-Omni erzielt konsistent starke menschliche Präferenzen, insbesondere bei der Mund-Sprach-Synchronisation. In 55 % bis 80 % der Fälle wird Ex-Omni bevorzugt, mit nur 5 % bis 10 % Gleichstand. Die Inter-Rater-Konsistenz ist hoch (70,0 % bis 73,8 %), was auf eine klare Mehrheitspräferenz hindeutet und die Reproduzierbarkeit der Vorteile von Ex-Omni unterstreicht. Dies belegt direkt, dass Ex-Omni genauere und stabilere Gesichtsbewegungen erzeugt, insbesondere bei längeren Sprachausgaben, wo es ausdrucksstärkere Mundöffnungsdynamiken in semantisch betonten Regionen beibehält.
Proprietäre Modelle übertreffen Open-Source-Modelle in den meisten Benchmarks, was hauptsächlich auf ihre größeren Trainingsdatensätze zurückzuführen ist. Trotz begrenzter Trainingsdaten (713,03 Stunden S2S-QA-Daten) erzielt Ex-Omni eine wettbewerbsfähige Leistung unter Open-Source-Modellen. Es belegt den zweiten Platz bei SD-QA (40,14 %) und zeigt eine starke Robustheit bei referenzbasierten Sprach-QA-Aufgaben sowie eine wettbewerbsfähige Leistung bei AdvBench. Bei MMSU, OBQA, BBH und IFEval bleibt die Leistung der meisten Modelle niedrig, was darauf hindeutet, dass sprachbasierte Multiple-Choice-Argumentation und Anweisungsbefolgung weiterhin herausfordernd sind. Diese Ergebnisse verdeutlichen die Effektivität von Ex-Omni im Hinblick auf ein ausgewogenes Verhältnis von Leistung und Dateneffizienz.
Ex-Omni erreicht bei der TTS-Generierung eine angemessene Leistung über alle Test-Splits hinweg. Obwohl Ex-Omni als OLLM nicht darauf ausgelegt ist, mit spezialisierten TTS-Modellen in Bezug auf die absolute Synthesequalität zu konkurrieren, demonstriert es seine Effektivität im vereinheitlichten Framework. Viele Open-Source-OLLMs können expliziten TTS-Anweisungen nicht folgen, was auf eine Einschränkung bei der kontrollierbaren Spracherzeugung für allgemeine OLLMs hindeutet.
Die Analyse der Auswirkungen von Regularisierungstermen und Komponenten auf die 3D-Gesichtsanimation zeigt, dass die Geschwindigkeitsregularisierung (ℒvel) wichtig ist, um abrupte Lippenbewegungen zu begrenzen und die zeitliche Stabilität zu verbessern. Das Ersetzen der kontextuellen Repräsentationen des Sprachgenerators durch LLM-Funktionen führt zu einem Leistungsabfall, was darauf hindeutet, dass generatorebene Repräsentationen eine geeignetere semantisch-zeitliche Schnittstelle für feinkörnige Vorhersagen bieten. Das Entfernen jeglicher kontextueller Konditionierung unterstreicht die Bedeutung von Kontextinformationen. Überraschenderweise kann die direkte Injektion hochrangiger LLM-Semantik zu zusätzlicher Instabilität führen. Die TQGF-Methode (Token-as-Query Gated Fusion) hilft, die Leistung über verschiedene Sprachen hinweg auszugleichen, indem sie die semantische Konditionierung moduliert, und demonstriert dabei eine höhere Trainingseffizienz im Vergleich zu alternativen Fusionsmethoden.
Ex-Omni stellt einen bedeutenden Fortschritt im Bereich der omnimodalen Large Language Models dar, indem es die Generierung von sprachbegleitenden 3D-Gesichtsanimationen ermöglicht. Durch die Entkopplung von hochrangigem semantischem Verständnis und modalitätsspezifischer zeitlicher Synthese, die Nutzung diskreter Spracheinheiten als zeitliches Gerüst und den Einsatz eines vereinheitlichten Token-Query-Guided-Fusion-Mechanismus, werden die Herausforderungen der Repräsentationsinkongruenz erfolgreich bewältigt. Die umfassenden Experimente belegen die wettbewerbsfähige Leistung von Ex-Omni in Sprachverständnis- und Generierungs-Benchmarks sowie die Fähigkeit, stabile und synchronisierte Sprach- und 3D-Gesichtsanimationen zu erzeugen.
Trotz der gezeigten Effektivität weist Ex-Omni noch einige Einschränkungen auf. Der aktuelle Fokus liegt hauptsächlich auf der Mundartikulation und der Lippen-Sprach-Synchronisation, ohne explizite Modellierung höherer Gesichtsausdrücke oder emotionaler Zustände, was die Ausdruckskraft der generierten Animationen begrenzt. Zudem erhöht die Integration von 3D-Gesichtsanimationen zwangsläufig die Generierungslatenz im Vergleich zu reinen Sprach-OLLMs, was interaktive Echtzeitszenarien potenziell beeinflussen kann.
Zukünftige Arbeiten könnten darauf abzielen, Ex-Omni um emotionsbewusste und ausdrucksstärkere Gesichtsanimationen zu erweitern und die Realismus und Kontrollierbarkeit der Spracherzeugung, insbesondere im Hinblick auf Sprecheridentität und Stimmfarbe, zu verbessern. Effizientere Modellierungs- und Inferenzstrategien zur Reduzierung der Latenz und zur Ermöglichung einer reaktionsschnelleren gemeinsamen Sprach-Gesichts-Generierung für interaktive Anwendungen stellen vielversprechende Forschungsrichtungen dar.
- Zhang, H., Li, Z., Guo, Y., & Yu, T. (2026). Ex-Omni: Enabling 3D Facial Animation Generation for Omni-modal Large Language Models. arXiv preprint arXiv:2602.07106. - Hugging Face. (2026, February 12). Paper page - Ex-Omni: Enabling 3D Facial Animation Generation for Omni-modal Large Language Models. Retrieved from https://huggingface.co/papers/2602.07106 - arXiv. (2026, February 6). [PDF] Enabling 3D Facial Animation Generation for Omni-modal ... - arXiv. Retrieved from https://www.arxiv.org/pdf/2602.07106 - ResearchGate. (2026, February). (PDF) Omni-Video 2: Scaling MLLM-Conditioned Diffusion for .... Retrieved from https://www.researchgate.net/publication/400622102_Omni-Video_2_Scaling_MLLM-Conditioned_Diffusion_for_Unified_Video_Generation_and_Editing - Hugging Face. (2026, February 10). Daily Papers - Hugging Face. Retrieved from https://huggingface.co/papers?q=omnimodal+model - arXiv. (n.d.). Tele-Omni: a Unified Multimodal Framework for Video Generation and Editing. Retrieved from https://arxiv.org/html/2602.09609v1 - paperreading.club. (n.d.). Qwen3-Omni Technical Report. Retrieved from http://paperreading.club/page?id=339780 - arXiv. (2025, January 8). OpenOmni: Advancing Open-Source Omnimodal Large Language Models with Progressive Multimodal Alignment and Real-Time Self-Aware Emotional Speech Synthesis. Retrieved from https://arxiv.org/abs/2501.04561 - GitHub. (n.d.). liutaocode/talking-face-arxiv-daily. Retrieved from https://github.com/liutaocode/talking-face-arxiv-daily
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen