Der schnelle Überblick
- Ein neues Modell ermöglicht interaktive Video-Weltsimulationen, die auf die Bewegungen von Kopf und Händen reagieren.
- Das System nutzt eine hybride 2D- und 3D-Konditionierungsstrategie für Videodiffusionsmodelle.
- Es wurde eine deutliche Verbesserung der Aufgabenleistung und der wahrgenommenen Kontrolle in Benutzerstudien festgestellt.
- Die Technologie könnte immersive Lern- und Explorationserfahrungen in der erweiterten Realität (XR) revolutionieren.
- Aktuelle Einschränkungen umfassen Auflösung, Latenz und Bildqualität bei längeren Simulationen.
Interaktive Realität: Neue Dimensionen der Mensch-KI-Interaktion in der erweiterten Realität
Die erweiterte Realität (XR) stellt hohe Anforderungen an generative Modelle, die in der Lage sein müssen, auf die erfassten Bewegungen von Nutzern in Echtzeit zu reagieren. Bisherige Video-Weltmodelle waren oft auf grobe Steuerungssignale wie Texteingaben oder Tastaturkommandos beschränkt, was ihre Anwendbarkeit für verkörperte Interaktionen stark einschränkte. Eine aktuelle Entwicklung verspricht hier signifikante Fortschritte: Ein menschenzentriertes Video-Weltmodell, das sowohl auf erfasste Kopf- als auch auf gelenkbasierte Handhaltungen konditioniert ist, ermöglicht die Schaffung interaktiver egozentrischer Umgebungen durch bidirektionales Diffusionstraining und eine verbesserte Benutzerkontrolle.
Grundlagen und Methodik der Generierten Realität
Das vorgestellte System, als „Generated Reality“ bezeichnet, adressiert die Herausforderung, immersive Inhalte dynamisch und reaktionsschnell zu generieren. Im Kern steht ein Videodiffusionsmodell, das auf die detaillierten Bewegungsdaten von Kopf und Händen des Benutzers konditioniert wird. Hierfür wurden bestehende Konditionierungsstrategien für Diffusionstransformer evaluiert und ein Mechanismus für die 3D-Steuerung von Kopf und Händen entwickelt, der präzise Hand-Objekt-Interaktionen ermöglicht.
Die Rolle der Handhaltungsrepräsentation und Konditionierung
Die Integration von Handhaltungen in generative Modelle ist komplex, da sie eine hohe Dimensionalität und komplizierte Artikulation aufweisen. Das Forschungsteam untersuchte systematisch verschiedene Ansätze zur Einbettung dieser Informationen in Videodiffusionstransformer (DiT). Dabei wurden zwei Hauptaspekte beleuchtet:
- Handhaltungsrepräsentation: Eine Option ist die Verwendung eines ControlNet-ähnlichen Skelettvideos, das die Positionen der Gelenke im 2D-Bildraum visualisiert. Für immersive Anwendungen ist jedoch eine 3D-Informationskomponente entscheidend, um Tiefenambiguitäten und Selbstverdeckung zu vermeiden. Daher wurde ein 3D-fähiges Handmodell wie UmeTrack eingesetzt, das Handhaltungsparameter (HPP) wie die Handgelenksposition und Rotationswinkel der Fingergelenke umfasst.
- Konditionierungsstrategien: Vier gängige Methoden zur Integration von Konditionierungsinformationen wurden verglichen: Token-Verkettung, Token-Addition, adaptive Schichtnormalisierung (AdaLN) und Cross-Attention-Fusion. Die Token-Addition erwies sich dabei als leistungsfähigste Methode.
Ein entscheidender technischer Beitrag ist die Entwicklung eines hybriden Konditionierungsschemas. Dieses kombiniert die Effizienz von ControlNet-ähnlichen 2D-Skelettvideos mit den räumlichen Informationen der 3D-HPP. Durch die elementweise Token-Addition von HPP-Features in den skelettbasierten Videokontrollzweig kann das Modell Tiefen- und Selbstverdeckungsambiguitäten auflösen und gleichzeitig eine starke räumliche Verankerung durch die Skelettdarstellung aufrechterhalten.
Gemeinsame Steuerung von Kamera und Händen
In head-mounted Displays (HMDs) ist die dynamische Generierung visueller Inhalte basierend auf Benutzerinteraktionen unerlässlich. Daher sind der Blickpunkt des Benutzers (Kamera) sowie die Bewegungen der linken und rechten Hand fundamentale Steuersignale. Das entwickelte Framework ermöglicht eine gemeinsame Konditionierung auf Hand- und Kamerapositionen. Hierbei werden 6-DoF-Kamerapositionen in Plücker-Einbettungen umgewandelt und zusammen mit den HPP-Einbettungen und Video-Latenten im latenten Raum kombiniert. Ein iteratives Trainingsverfahren sorgt für Stabilität, indem Kamera- und HPP-Encoder zunächst unabhängig voneinander trainiert und anschließend gemeinsam feinjustiert werden.
Experimentelle Bewertung und Ergebnisse
Die Wirksamkeit des Modells wurde anhand umfassender Experimente evaluiert. Das Training erfolgte auf dem HOT3D-Datensatz, der Hand-Objekt-Interaktionen mit präzisen 3D-Handannotationen enthält. Die Bewertung umfasste drei Dimensionen:
- Gesamte Videoqualität: Gemessen mit PSNR, LPIPS, SSIM und Fréchet Video Distance (FVD).
- Handhaltungsgenauigkeit: Ermittelt durch Procrustes Aligned Mean Per-Joint Position Error (PA-MPJPE) und Procrustes Aligned Mean Per-Vertex Position Error (PA-MPVPE) sowie den durchschnittlichen L2-Abstand von Hand-Landmarken.
- Kameraposengenauigkeit: Bewertet durch Rotationsfehler (RotErr) und Translationsfehler (TransErr).
Die Ergebnisse zeigten, dass die Token-Addition die beste Leistung bei der Handhaltungsgenauigkeit erzielte. Die hybride Konditionierungsstrategie übertraf alle Baselines in Bezug auf die Handgenauigkeit. Bei der gemeinsamen Hand- und Kamerasteuerung erreichte das Modell die beste Videoqualität und eine ausgewogene Leistung bei Hand- und Kameraposengenauigkeit. Dies deutet darauf hin, dass das System eine kohärente Koordination zwischen Handbewegungen und Kopfdynamik erreichen kann, was für immersive XR-Anwendungen von großer Bedeutung ist.
Das System der Generierten Realität in der Praxis
Aufbauend auf den Forschungsergebnissen wurde ein interaktives System der Generierten Realität entwickelt. Dieses System ist eine Variante des Videodiffusionsmodells, das kausal, d.h. autoregressiv, ausgerollt und destilliert wurde, um interaktive Bildraten zu erreichen. Die Kopf- und Handpositionen des Benutzers werden dynamisch über ein kommerzielles VR-System erfasst und zur Konditionierung des Videogenerierungsmodells verwendet, dessen Ausgabe direkt an das vom Benutzer getragene Headset gestreamt wird.
- Autoregressive Destillation: Ein bidirektionales „Teacher-Modell“ wird in ein kausales „Student-Modell“ destilliert. Dies ermöglicht die Generierung von Videosequenzen in 12-Frame-Blöcken mit kontinuierlicher Konditionierung der Hand- und Kopfbewegungen.
- Integration mit VR-Systemen: Das Echtzeit-Generierungssystem wurde in Unity auf der Meta Quest 3 implementiert. Die erfassten Bewegungsdaten werden an einen Server gestreamt, der das destillierte Modell hostet, und die generierten Videos werden zurück an die Quest 3 gestreamt. Das System erreicht eine Bildrate von 11 FPS bei einer Latenz von 1,4 Sekunden auf einer H100-GPU.
Benutzerstudien und wahrgenommene Kontrolle
In Benutzerstudien mit 11 Probanden wurden Aufgaben wie das Drücken eines grünen Knopfes, das Öffnen eines Glases und das Drehen eines Lenkrads in generierten Umgebungen durchgeführt. Das handgesteuerte Modell erreichte eine Aufgabenpräzision von 71,2 % im Vergleich zu 3,0 % bei einer Baseline, die nur textbasierte Prompts verwendete. Die Probanden bewerteten die wahrgenommene Kontrolle mit einem Durchschnittswert von 4,21 auf einer 7-Punkte-Likert-Skala, verglichen mit 1,74 für die Baseline. Diese Ergebnisse unterstreichen die deutliche Verbesserung der Aufgabenerfüllung und des Kontrollerlebnisses durch explizite Handkonditionierung.
Ausblick und zukünftige Herausforderungen
Die „Generated Reality“ stellt einen entscheidenden Schritt in Richtung einer menschenzentrierten Weltsimulation dar. Die identifizierten und evaluierten Mechanismen zur Konditionierung von Videodiffusionsmodellen auf erfasste Kopf- und Handdaten sind vielversprechend. Dennoch gibt es noch Herausforderungen zu bewältigen.
- Aktuelle Einschränkungen: Die Auflösung, Latenz, stereoskopische Rendering-Fähigkeiten, Bildqualität und Recheneffizienz des Systems bleiben hinter modernen VR-Systemen zurück. Wie bei allen aktuellen autoregressiven Videomodellen verschlechtert sich die Bildqualität nach einigen Sekunden der Ausrollung erheblich.
- Zukünftige Forschung: Die Verbesserung dieser Einschränkungen hin zu einer retinalen Bildauflösung in Stereo mit unmerklicher Latenz (< 20 ms) und langen Ausrollzeiten auf tragbaren Computern in Headsets ist eine enorme Herausforderung. Diese Probleme sind jedoch eng mit laufenden Forschungs- und Entwicklungsbemühungen im Bereich der autoregressiven Videodiffusionsmodelle verknüpft.
Die Vision einer generierten Realität könnte immersives Lernen und Erkunden ermöglichen, indem Benutzer Fähigkeiten erwerben und komplexe Aufgaben in einem „Zero-Shot“-Ansatz üben können, ohne dass eine aufwändige Modellierung von 3D-Virtual-Environments erforderlich ist. Dies könnte neue interaktive Medien und Echtzeit-Generierungsanleitungen durch intelligente Brillen für vielfältige Anwendungen unterstützen.
Bibliografie
- Akkerman, R., Feng, H., Black, M. J., Tzionas, D., & Abrevaya, V. F. (2025). InterDyn: controllable interactive dynamics with video diffusion models. In Proceedings of the Computer Vision and Pattern Recognition Conference, S. 12467–12479.
- Bai, Y., Tran, D., Bar, A., LeCun, Y., Darrell, T., & Malik, J. (2025). Whole-body conditioned egocentric video prediction.
- Bai, J., Xia, M., Fu, X., Wang, X., Mu, L., Cao, J., Liu, Z., Hu, H., Bai, X., Wan, P., & Zhang, D. (2025). ReCamMaster: camera-controlled generative rendering from a single video.
- Bahmani, S., Skorokhodov, I., Qian, G., Siarohin, A., Menapace, W., Tagliasacchi, A., Lindell, D. B., & Tulyakov, S. (2025). AC3D: analyzing and improving 3d camera control in video diffusion transformers.
- Banerjee, P., Shkodrani, S., Moulon, P., Hampali, S., Zhang, F., Fountain, J., Miller, E., Basol, S., Newcombe, R., Wang, R., Engel, J. J., & Hodan, T. (2024). Introducing hot3d: an egocentric dataset for 3d hand and object tracking.
- Ball, P. J., Bauer, J., Belletti, F., Brownfield, B., Ephrat, A., Fruchter, S., Gupta, A., Holsheimer, K., Holynski, A., Hron, J., Kaplanis, C., Limont, M., McGill, M., Oliveira, Y., Parker-Holder, J., Perbet, F., Scully, G., Shar, J., Spencer, S., Tov, O., Villegas, R., Wang, E., Yung, J., Baetu, C., Berbel, J., Bridson, D., Bruce, J., Buttimore, G., Chakera, S., Chandra, B., Collins, P., Cullum, A., Damoc, B., Dasagi, V., Gazeau, M., Gbadamosi, C., Han, W., Hirst, E., Kachra, A., Kerley, L., Kjems, K., Knoepfel, E., Koriakin, V., Lo, J., Lu, C., Mehring, Z., Moufarek, A., Nandwani, H., Oliveira, V., Pardo, F., Park, J., Pierson, A., Poole, B., Ran, H., Salimans, T., Sanchez, M., Saprykin, I., Shen, A., Sidhwani, S., Smith, D., Stanton, J., Tomlinson, H., Vijaykumar, D., Wang, L., Wingfield, P., Wong, N., Xu, K., Yew, C., Young, N., Zubov, V., Eck, D., Erhan, D., Kavukcuoglu, K., Hassabis, D., Gharamani, Z., Hadsell, R., van den Oord, A., Mosseri, I., Bolton, A., Singh, S., & Rocktäschel, T. (2025). Genie 3: a new frontier for world models.
- Cheng, J., Ge, Y., Ge, Y., Liao, J., & Shan, Y. (2025). AnimeGamer: infinite anime life simulation with next game state prediction.
- Decart, E., McIntyre, Q., Campbell, S., Chen, X., & Wachen, R. (2024). Oasis: a universe in a transformer.
- Esser, P., Kulal, S., Blattmann, A., Entezari, R., Müller, J., Saini, H., Levi, Y., Lorenz, D., Sauer, A., Boesel, F., Podell, D., Dockhorn, T., English, Z., Lacey, K., Goodwin, A., Marek, Y., & Rombach, R. (2024). Scaling rectified flow transformers for high-resolution image synthesis.
- Feng, R., Zhang, H., Yang, Z., Xiao, J., Shu, Z., Liu, Z., Zheng, A., Huang, Y., Liu, Y., & Zhang, H. (2024). The matrix: infinite-horizon world generation with real-time moving control.
- Fu, R., Zhang, D., Jiang, A., Fu, W., Funk, A., Ritchie, D., & Sridhar, S. (2025). GigaHands: a massive annotated dataset of bimanual hand activities.
- Gao, X., Hu, L., Hu, S., Huang, M., Ji, C., Meng, D., Qi, J., Qiao, P., Shen, Z., Song, Y., Sun, K., Tian, L., Wang, G., Wang, Q., Wang, Z., Xiao, J., Xu, S., Zhang, B., Zhang, P., Zhang, X., Zhang, Z., Zhou, J., & Zhuo, L. (2025). Wan-s2v: audio-driven cinematic video generation.
- Guo, J., Ye, Y., He, T., Wu, H., Jiang, Y., Pearce, T., & Bian, J. (2025). MineWorld: a real-time and open-source interactive world model on minecraft.
- HaCohen, Y., Chiprut, N., Brazowski, B., Shalem, D., Moshe, D., Richardson, E., Levin, E., Shiran, G., Zabari, N., Gordon, O., Panet, P., Weissbuch, S., Kulikov, V., Bitterman, Y., Melumian, Z., & Bibi, O. (2024). LTX-video: realtime video latent diffusion.
- Han, S., Wu, P., Zhang, Y., Liu, B., Zhang, L., Wang, Z., Si, W., Zhang, P., Cai, Y., Hodan, T., Cabezas, R., Tran, L., Akbay, M., Yu, T., Keskin, C., & Wang, R. (2022). UmeTrack: unified multi-view end-to-end hand tracking for vr. In SIGGRAPH Asia 2022 Conference Papers.
- He, H., Xu, Y., Guo, Y., Wetzstein, G., Dai, B., Li, H., & Yang, C. (2025). CameraCtrl: enabling camera control for video diffusion models. In The Thirteenth International Conference on Learning Representations.
- He, H., Yang, C., Lin, S., Xu, Y., Wei, M., Gui, L., Zhao, Q., Wetzstein, G., Jiang, L., & Li, H. (2025). CameraCtrl ii: dynamic scene exploration via camera-controlled video diffusion models.
- Hu, E. J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., Wang, L., Chen, W., et al. (2022). Lora: low-rank adaptation of large language models.
- Huang, X., Li, Z., He, G., Zhou, M., & Shechtman, E. (2025). Self forcing: bridging the train-test gap in autoregressive video diffusion.
- Kong, W., Tian, Q., Zhang, Z., Min, R., Dai, Z., Zhou, J., Xiong, J., Li, X., Wu, B., Zhang, J., Wu, K., Lin, Q., Yuan, J., Long, Y., Wang, A., Wang, A., Li, C., Huang, D., Yang, F., Tan, H., Wang, H., Song, J., Bai, J., Wu, J., Xue, J., Wang, J., Wang, K., Liu, M., Li, P., Li, S., Wang, W., Yu, W., Deng, X., Chen, Y., Cui, Y., Peng, Y., Yu, Z., He, Z., Xu, Z., Zhou, Z., Xu, Z., Tao, Y., Lu, Q., Liu, S., Zhou, D., Wang, H., Yang, Y., Wang, D., Liu, Y., Jiang, J., & Zhong, C. (2025). HunyuanVideo: a systematic framework for large video generative models.
- Liang, H., Cao, J., Goel, V., Qian, G., Korolev, S., Terzopoulos, D., Plataniotis, K. N., Tulyakov, S., & Ren, J. (2025). Wonderland: navigating 3d scenes from a single image.
- Lipman, Y., Chen, R. T. Q., Ben-Hamu, H., Nickel, M., & Le, M. (2023). Flow matching for generative modeling.
- NVIDIA, :, Agarwal, N., Ali, A., Bala, M., Balaji, Y., Barker, E., Cai, T., Chattopadhyay, P., Chen, Y., Cui, Y., Ding, Y., Dworakowski, D., Fan, J., Fenzi, M., Ferroni, F., Fidler, S., Fox, D., Ge, S., Ge, Y., Gu, J., Gururani, S., He, E., Huang, J., Huffman, J., Jannaty, P., Jin, J., Kim, S. W., Klár, G., Lam, G., Lan, S., Leal-Taixe, L., Li, A., Li, Z., Lin, C., Lin, T., Ling, H., Liu, M., Liu, X., Luo, A., Ma, Q., Mao, H., Mo, K., Mousavian, A., Nah, S., Niverty, S., Page, D., Paschalidou, D., Patel, Z., Pavao, L., Ramezanali, M., Reda, F., Ren, X., Sabavat, V. R. N., Schmerling, E., Shi, S., Stefaniak, B., Tang, S., Tchapmi, L., Tredak, P., Tseng, W., Varghese, J., Wang, H., Wang, H., Wang, H., Wang, T., Wei, F., Wei, X., Wu, J. Z., Xu, J., Yang, W., Yen-Chen, L., Zeng, X., Zeng, Y., Zhang, J., Zhang, Q., Zhang, Y., Zhao, Q., & Zolkowski, A. (2025). Cosmos world foundation model platform for physical ai.
- OpenAI. (2024). Sora: creating video from text.
- Pan, L., Baráth, D., Pollefeys, M., & Schönberger, J. L. (2024). Global structure-from-motion revisited.
- Parker-Holder, J., Ball, P., Bruce, J., Dasagi, V., Holsheimer, K., Kaplanis, C., Moufarek, A., Scully, G., Shar, J., Shi, J., Spencer, S., Yung, J., Dennis, M., Kenjeyev, S., Long, S., Mnih, V., Chan, H., Gazeau, M., Li, B., Pardo, F., Wang, L., Zhang, L., Besse, F., Harley, T., Mitenkova, A., Wang, J., Clune, J., Hassabis, D., Hadsell, R., Bolton, A., Singh, S., & Rocktäschel, T. (2024). Genie 2: a large-scale foundation world model.
- Peebles, W., & Xie, S. (2023). Scalable diffusion models with transformers.
- Potamias, R. A., Zhang, J., Deng, J., & Zafeiriou, S. (2025). WiLoR: end-to-end 3d hand localization and reconstruction in-the-wild.
- Prakash, A., Tu, R., Chang, M., & Gupta, S. (2024). 3D hand pose estimation in everyday egocentric images.
- Romero, J., Tzionas, D., & Black, M. J. (2017). Embodied hands: modeling and capturing hands and bodies together. ACM Trans. Graph.
- Sharma, A., Yu, A. W., Razavi, A., Toor, A., Pierson, A., Gupta, A., Waters, A., van den Oord, A., Tanis, D., Erhan, D., Lau, E., Shaw, E., Barth-Maron, G., Shaw, G., Zhang, H., Nandwani, H., Moraldo, H., Kim, H., Blok, I., Bauer, J., Donahue, J., Chung, J., Mathewson, K., David, K., Espeholt, L., van Zee, M., McGill, M., Narasimhan, M., Wang, M., Bińkowski, M., Babaeizadeh, M., Saffar, M. T., de Freitas, N., Pezzotti, N., Kindermans, P., Rane, P., Hornung, R., Riachi, R., Villegas, R., Qian, R., Dieleman, S., Zhang, S., Cabi, S., Luo, S., Fruchter, S., Nørly, S., Srinivasan, S., Pfaff, T., Hume, T., Verma, V., Hua, W., Zhu, W., Yan, X., Wang, X., Kim, Y., Du, Y., & Chen, Y. (2025). Veo: a text-to-video generation system. Technical report Google DeepMind.
- Sitzmann, V., Rezchikov, S., Freeman, W. T., Tenenbaum, J. B., & Durand, F. (2022). Light field networks: neural scene representations with single-evaluation rendering.
- Tu, Y., Luo, H., Chen, X., Bai, X., Wang, F., & Zhao, H. (2025). PlayerOne: egocentric world simulator.
- Valevski, D., Leviathan, Y., Arar, M., & Fruchter, S. (2024). Diffusion models are real-time game engines.
- Wan, T., Wang, A., Ai, B., Wen, B., Mao, C., Xie, C., Chen, D., Yu, F., Zhao, H., Yang, J., Zeng, J., Wang, J., Zhang, J., Zhou, J., Wang, J., Chen, J., Zhu, K., Zhao, K., Yan, K., Huang, L., Feng, M., Zhang, N., Li, P., Wu, P., Chu, R., Feng, R., Zhang, S., Sun, S., Fang, T., Wang, T., Gui, T., Weng, T., Shen, T., Lin, W., Wang, W., Wang, W., Zhou, W., Wang, W., Shen, W., Yu, W., Shi, X., Huang, X., Xu, X., Kou, Y., Lv, Y., Li, Y., Liu, Y., Wang, Y., Zhang, Y., Huang, Y., Li, Y., Wu, Y., Liu, Y., Pan, Y., Zheng, Y., Hong, Y., Shi, Y., Feng, Y., Jiang, Z., Han, Z., Wu, Z., & Liu, Z. (2025). Wan: open and advanced large-scale video generative models.
- Wang, Z., Yuan, Z., Wang, X., Li, Y., Chen, T., Xia, M., Luo, P., & Shan, Y. (2024). Motionctrl: a unified and flexible motion controller for video generation. In ACM SIGGRAPH 2024 Conference Papers, S. 1–11.
- Wu, T., Yang, S., Po, R., Xu, Y., Liu, Z., Lin, D., & Wetzstein, G. (2025). Video world models with long-term spatial memory. In The Thirty-ninth Annual Conference on Neural Information Processing Systems.
- Xiao, Z., Lan, Y., Zhou, Y., Ouyang, W., Yang, S., Zeng, Y., & Pan, X. (2025). WORLDMEM: long-term consistent world simulation with memory.
- Xie, L., Sun, L. C., Neall, A., Wu, T., Cai, S., & Wetzstein, G. (2026). Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control. arXiv preprint arXiv:2602.18422.
- Yang, S., Du, Y., Ghasemipour, K., Tompson, J., Kaelbling, L., Schuurmans, D., & Abbeel, P. (2024). Learning interactive real-world simulators.
- Yin, T., Zhang, Q., Zhang, R., Freeman, W. T., Durand, F., Shechtman, E., & Huang, X. (2025). From slow bidirectional to fast autoregressive video diffusion models.
- Yu, J., Qin, Y., Wang, X., Wan, P., Zhang, D., & Liu, X. (2021). GameFactory: creating new games with generative interactive videos. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV).
- Yu, J., Bai, J., Qin, Y., Liu, Q., Wang, X., Wan, P., Zhang, D., & Liu, X. (2025). Context as memory: scene-consistent interactive long video generation with memory retrieval. arXiv preprint arXiv:2506.03141.
- Zhang, L., & Agrawala, M. (2025). Packing input frame context in next-frame prediction models for video generation.
- Zhang, L., Rao, A., & Agrawala, M. (2023). Adding conditional control to text-to-image diffusion models.
- Zhang, R., Isola, P., Efros, A. A., Shechtman, E., & Wang, O. (2018). The unreasonable effectiveness of deep features as a perceptual metric.