KI für Ihr Unternehmen – Jetzt Demo buchen

Fortschritte in der Generierung von Videos mit synchronisiertem Ton aus Text

Kategorien:
No items found.
Freigegeben:
October 14, 2025

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Die Generierung von Videos mit synchronisiertem Ton aus Text (Text-to-Sounding-Video, T2SV) stellt eine wichtige Forschungsaufgabe dar.
    • Ein zentrales Problem sind Modusinterferenzen, die entstehen, wenn ein einziger, geteilter Text für Video und Audio verwendet wird.
    • Das Hierarchical Visual-Grounded Captioning (HVGC) Framework wurde entwickelt, um separate, modality-reine Bild- und Audiountertitel zu erstellen.
    • Die BridgeDiT-Architektur, ein Dual-Tower-Diffusions-Transformer mit einem Dual CrossAttention (DCA)-Mechanismus, ermöglicht einen symmetrischen, bidirektionalen Informationsaustausch zwischen den Modalitäten.
    • Umfassende Experimente und menschliche Bewertungen zeigen, dass dieser Ansatz in den meisten Metriken den aktuellen Stand der Technik übertrifft.
    • Die Ergebnisse betonen die Bedeutung eines effektiven und effizienten bidirektionalen Informationsaustauschs für eine präzise semantische und zeitliche Synchronisation.

    Fortschritte in der Text-zu-Sounding-Video-Generierung: Eine Analyse des BridgeDiT-Ansatzes

    Die Fähigkeit, Videos mit passendem und synchronisiertem Ton direkt aus Textbeschreibungen zu generieren, ist ein vielversprechendes Forschungsfeld innerhalb der künstlichen Intelligenz. Diese als Text-to-Sounding-Video (T2SV) bekannte Aufgabe birgt großes Potenzial für Anwendungen in der Medienproduktion, der Erstellung von Bildungsinhalten und der Entwicklung immersiver digitaler Erlebnisse. Trotz signifikanter Fortschritte in der unimodalen Generierung, beispielsweise von Text zu Video (T2V) oder Text zu Audio (T2A), stehen Forscher bei der gemeinsamen Generierung von Video und Audio vor spezifischen Herausforderungen. Eine aktuelle Studie beleuchtet diese Probleme und stellt einen neuen Ansatz vor, der darauf abzielt, die Qualität und Synchronisation von T2SV-Ergebnissen signifikant zu verbessern.

    Herausforderungen in der Text-zu-Sounding-Video-Generierung

    Die Erstellung von Videos mit korrekt synchronisiertem Audio aus Textbedingungen ist komplex. Bisherige Methoden, die Video und Audio unabhängig voneinander generieren, leiden oft unter mangelnder zeitlicher Synchronisation. Pipeline-Ansätze, bei denen beispielsweise zuerst ein Video aus Text und anschließend Audio aus dem Video generiert wird, können zu Fehlerakkumulationen führen. Dies liegt daran, dass nachfolgende Modelle Fehler aus vorherigen Schritten nicht korrigieren, sondern oft verstärken. Aktuelle Forschungen konzentrieren sich daher auf die gemeinsame Generierung beider Modalitäten.

    Innerhalb der gemeinsamen Generierung haben sich zwei Hauptparadigmen etabliert: Single-Tower- und Dual-Tower-Architekturen. Single-Tower-Ansätze lernen die gemeinsame Audio-Video-Verteilung von Grund auf, was jedoch datenintensiv und rechenaufwendig ist. Dual-Tower-Architekturen hingegen nutzen vortrainierte unimodale T2V- und T2A-Modelle und verbinden diese über ein Interaktionsmodul. Trotz ihrer Effizienz stehen auch diese Ansätze vor zwei kritischen, bisher unzureichend adressierten Problemen:

    • Das Konditionierungsproblem: Bestehende Dual-Tower-Frameworks verwenden oft eine einzige, geteilte Textbeschreibung für beide Modalitäten. Dies kann zu modalen Interferenzen führen, da textliche Informationen, die für die visuelle Komponente relevant sind (z.B. "rotes Auto"), für die auditive Komponente als irrelevanten Lärm erscheinen können und umgekehrt (z.B. "scharfes Hupen"). Dies verwirrt die vortrainierten Backbones und beeinträchtigt die Leistung.
    • Das Interaktionsproblem: Der optimale Mechanismus für den Austausch von Informationen zwischen den Video- und Audio-Türmen ist bisher unklar. Eine effektive und effiziente bidirektionale Interaktion ist entscheidend für die semantische und zeitliche Synchronisation des Endprodukts.

    Der BridgeDiT-Ansatz: Eine Lösung für Konditionierung und Interaktion

    Um die genannten Herausforderungen zu bewältigen, wurde ein neuer Ansatz entwickelt, der zwei Schlüsselkomponenten umfasst: das Hierarchical Visual-Grounded Captioning (HVGC) Framework und die BridgeDiT-Architektur.

    Hierarchical Visual-Grounded Captioning (HVGC)

    Das HVGC-Framework adressiert das Konditionierungsproblem, indem es entkoppelte, modalitätsreine Textbeschreibungen generiert. Es handelt sich um eine dreistufige Pipeline:

    1. Ein großes Vision-Language-Modell (VLLM) erstellt eine detaillierte visuelle Beschreibung des Videoclips.
    2. Ein Hilfs-Large-Language-Modell (LLM) extrahiert relevante Audio-Ereignis-Tags aus dieser visuellen Beschreibung. Dieser Schritt filtert visuelle Kontexte in relevante Klangelemente.
    3. Ein LLM generiert schließlich eine reine Audiobeschreibung, die sowohl kontextuell mit dem Video übereinstimmt als auch ausschließlich auditive Sprache verwendet.

    Dieser hierarchische, visuell fundierte Ansatz vermeidet Probleme wie Halluzinationen, die bei der direkten Generierung von Audio-Beschreibungen aus rohem Audio auftreten können. Die Präzision und Trennung der Untertitel ist entscheidend für die optimale Leistung des Dual-Tower-T2SV-Modells.

    BridgeDiT-Architektur mit Dual CrossAttention (DCA)

    Das Interaktionsproblem wird durch die BridgeDiT-Architektur gelöst, einen neuartigen Dual-Tower-Diffusions-Transformer. BridgeDiT besteht aus zwei parallelen, weitgehend eingefrorenen DiT-Backbones für Video und Audio. Der zentrale Aspekt ist der Dual CrossAttention (DCA)-Fusionsmechanismus innerhalb jedes BridgeDiT-Blocks. Dieser Mechanismus ermöglicht einen symmetrischen, bidirektionalen Informationsaustausch zwischen den Video- und Audio-Türmen.

    Im A-to-V (Audio-zu-Video)-Stream werden Videomerkmale basierend auf dem Audiokontext verfeinert. Analog dazu arbeitet der V-to-A (Video-zu-Audio)-Stream symmetrisch, wobei Audio-Merkmale durch den Videokontext aktualisiert werden. Diese bidirektionale Wechselwirkung stellt sicher, dass beide Modalitäten gleichzeitig semantisch und zeitlich synchronisiert werden.

    Experimentelle Validierung und Ergebnisse

    Umfassende Experimente wurden auf drei Benchmark-Datensätzen durchgeführt: AVSync15, VGGSound-SS und Landscape. Die Leistung wurde anhand verschiedener Metriken bewertet, darunter Generierungsqualität (FVD, KVD für Video; FAD, KL für Audio), Textausrichtung (CLIPSIM für Video-Text; CLAP für Audio-Text) und Audio-Video-Synchronisation (ImageBind-Score (IB-VA) für semantische Synchronisation; AV-Align für zeitliche Synchronisation).

    Die Ergebnisse zeigen, dass der BridgeDiT-Ansatz in den meisten Metriken den aktuellen Stand der Technik übertrifft. Insbesondere übertraf das Modell Baselines, die Video und Audio unabhängig generieren, und Pipeline-Methoden, was die Effektivität des gemeinsamen Generierungsansatzes und die Reduzierung von Fehlerakkumulationen unterstreicht.

    Ablationsstudien

    Zusätzliche Ablationsstudien validierten die Wirksamkeit der einzelnen Komponenten:

    • Effekt der entkoppelten Textkonditionierung: Das HVGC-Framework zeigte eine durchweg bessere Leistung als Strategien mit geteilten Untertiteln oder solchen, die lediglich auf Audio-LLMs basieren. Letztere litten unter signifikanten Halluzinationsproblemen, bei denen das Modell Klänge erzeugte, die nicht mit der visuellen Szene übereinstimmten.
    • Analyse der Fusionsmechanismen: Der Dual CrossAttention (DCA)-Fusionsmechanismus übertraf alle anderen getesteten Fusionsstrategien (Full Attention, Additive Fusion, unidirektionale Cross-Attention-Varianten) hinsichtlich der AV-Align- und VA-IB-Scores. Dies betont die Bedeutung eines effektiven und effizienten bidirektionalen Informationsaustauschs für eine präzise Synchronisation.

    Benutzerstudie

    Eine Benutzerstudie auf dem AVSync15-Testset bestätigte die Überlegenheit des BridgeDiT-Modells. Fünf Gutachter bewerteten die generierten Videos nach Videoqualität, Audioqualität, Textausrichtung, Synchronisation und Gesamtqualität. BridgeDiT erhielt in allen fünf Dimensionen die höchsten Bewertungen, was darauf hindeutet, dass automatische Metriken nicht immer vollständig mit den menschlichen Präferenzen übereinstimmen.

    Fazit und Ausblick

    Die vorgestellte Forschung adressiert erfolgreich zwei grundlegende Herausforderungen in der T2SV-Generierung: das Konditionierungsproblem durch geteilte Textbeschreibungen und das Interaktionsproblem in Dual-Tower-Architekturen. Durch das Hierarchical Visual-Grounded Captioning (HVGC) Framework und die BridgeDiT-Architektur mit ihrem Dual CrossAttention-Mechanismus wird eine verbesserte, symmetrische und effiziente Fusion ermöglicht. Die umfassenden Experimente und menschlichen Bewertungen bestätigen die Leistungsfähigkeit dieses Ansatzes. Diese Erkenntnisse bieten wertvolle Impulse für das Design zukünftiger T2SV-Modelle.

    Zukünftige Arbeiten könnten die Entwicklung größerer, qualitativ hochwertigerer Audio-Video-Datensätze beinhalten, um die Modellleistung weiter zu verbessern. Eine Erweiterung von BridgeDiT zur Unterstützung von Sprache und Musik, einschließlich spezialisierter Module für Lippensynchronisation, wird ebenfalls in Betracht gezogen. Darüber hinaus könnten Post-Training-Verfeinerungstechniken, wie Reinforcement Learning mit menschlichem Feedback (RLHF), zur weiteren Verbesserung der audio-visuellen Kohärenz beitragen. Diese Schritte sollen die Entwicklung hin zu wirklich holistischen und synchronisierten multisensorischen Erlebnissen vorantreiben.

    Bibliographie

    • Guan, K., Wang, X., Lai, Z., Cheng, X., Zhang, P., Liu, X., Song, R., & Cao, M. (2025). Taming Text-to-Sounding Video Generation via Advanced Modality Condition and Interaction. arXiv preprint arXiv:2510.03117.
    • Bai, S., Chen, K., Liu, X., Wang, J., Ge, W., Song, S., Dang, K., Wang, P., Wang, S., Tang, J., Zhong, H., Zhu, Y., Yang, M., Li, Z., Wan, J., Wang, P., Ding, W., Fu, Z., Xu, Y., Ye, J., Zhang, X., Xie, T., Cheng, Z., Zhang, H., Yang, Z., Xu, H., & Lin, J. (2025). Qwen2.5-vl technical report. arXiv preprint arXiv:2502.13923.
    • Blattmann, A., Dockhorn, T., Kulal, S., Mendelevitch, D., Kilian, M., Lorenz, D., Levi, Y., English, Z., Voleti, V., Letts, A., Jampani, V., & Rombach, R. (2023). Stable video diffusion: Scaling latent video diffusion models to large datasets. arXiv preprint arXiv:2311.15127.
    • Brooks, T., Peebles, B., Holmes, C., DePue, W., Guo, Y., Jing, L., Schnurr, D., Taylor, J., Luhman, T., Luhman, E., Ng, C., Wang, R., & Ramesh, A. (2024). Video generation models as world simulators. OpenAI Research.
    • Cao, D., Jia, F., Arik, S. O., Pfister, T., Zheng, Y., Ye, W., & Liu, Y. (2023). Tempo: Prompt-based generative pre-trained transformer for time series forecasting. arXiv preprint arXiv:2310.04948.
    • Chen, H., Xie, W., Vedaldi, A., & Zisserman, A. (2020). Vggsound: A large-scale audio-visual dataset. International Conference on Acoustics, Speech, and Signal Processing (ICASSP).
    • Chen, H., Xie, W., Afouras, T., Nagrani, A., Vedaldi, A., & Zisserman, A. (2021). Localizing visual sounds the hard way. CVPR.
    • Cheng, H. K., Ishii, M., Hayakawa, A., Shibuya, T., Schwing, A., & Mitsufuji, Y. (2025a). Mmaudio: Taming multimodal joint training for high-quality video-to-audio synthesis. Proceedings of the Computer Vision and Pattern Recognition Conference.
    • Cheng, X., Wang, X., Wu, Y., Wang, Y., & Song, R. (2025b). Lova: Long-form video-to-audio generation. ICASSP 2025-2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).
    • Chu, Y., Xu, J., Yang, Q., Wei, H., Wei, X., Guo, Z., Leng, Y., Lv, Y., He, J., Lin, J., Zhou, C., & Zhou, J. (2024). Qwen2-audio technical report. arXiv preprint arXiv:2407.10759.
    • Elizalde, B., Deshmukh, S., Al Ismail, M., & Wang, H. (2023). Clap learning audio concepts from natural language supervision. ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).
    • Evans, Z., Parker, J. D., Carr, C. J., Zukowski, Z., Taylor, J., & Pons, J. (2025). Stable audio open. ICASSP 2025-2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).
    • Girdhar, R., El-Nouby, A., Liu, Z., Singh, M., Alwala, K. V., Joulin, A., & Misra, I. (2023). Imagebind: One embedding space to bind them all. CVPR.
    • Guan, K., Lai, Z., Sun, Y., Zhang, P., Liu, W., Liu, K., Cao, M., & Song, R. (2025). Etva: Evaluation of text-to-video alignment via fine-grained question generation and answering. arXiv preprint arXiv:2503.16867.
    • Ho, J., & Salimans, T. (2022). Classifier-free diffusion guidance. arXiv preprint arXiv:2207.12598.
    • Ho, J., Jain, A., & Abbeel, P. (2020). Denoising diffusion probabilistic models. arXiv preprint arXiv:2006.11239.
    • Huang, J., Ren, Y., Huang, R., Yang, D., Ye, Z., Zhang, C., Liu, J., Yin, X., Ma, Z., & Zhao, Z. (2023). Make-an-audio 2: Temporal-enhanced text-to-audio generation.
    • Ishii, M., Hayakawa, A., Shibuya, T., & Mitsufuji, Y. (2024). A simple but strong baseline for sounding video generation: Effective adaptation of audio and video diffusion models for joint generation. arXiv preprint arXiv:2409.17550.
    • Jeong, Y., Ryoo, W., Lee, S., Seo, D., Byeon, W., Kim, S., & Kim, J. (2023). The power of sound (tpos): Audio reactive video generation with stable diffusion. Proceedings of the IEEE/CVF International Conference on Computer Vision.
    • Karras, T., Aittala, M., Aila, T., & Laine, S. (2022). Elucidating the design space of diffusion-based generative models. Advances in neural information processing systems.
    • Kilgour, K., Zuluaga, M., Roblek, D., & Sharifi, M. (2018). Fr’echet audio distance: A metric for evaluating music enhancement algorithms. arXiv preprint arXiv:1812.08466.
    • Kingma, D. P., & Welling, M. (2022). Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114.
    • Kuaishou Inc. (2024). Kling video generation. klingai.com.
    • Kuan, C. Y., Huang, W. P., & Lee, H. Y. (2024). Understanding sounds, missing the questions: The challenge of object hallucination in large audio-language models. arXiv preprint arXiv:2406.08402.
    • Lee, S. H., Oh, G., Byeon, W., Kim, C., Ryoo, W. J., Yoon, S. H., Cho, H., Bae, J., Kim, J., & Kim, S. (2022). Sound-guided semantic video generation. Computer Vision–ECCV 2022: 17th European Conference, Tel Aviv, Israel, October 23–27, 2022, Proceedings, Part XVII.
    • Lin, B., Ge, Y., Cheng, X., Li, Z., Zhu, B., Wang, S., He, X., Ye, Y., Yuan, S., Chen, L., et al. (2024). Open-sora plan: Open-source large video generation model. arXiv preprint arXiv:2412.00131.
    • Lipman, Y., Chen, R. T., Ben-Hamu, H., Nickel, M., & Le, M. (2022). Flow matching for generative modeling. arXiv preprint arXiv:2210.02747.
    • Liu, H., Chen, Z., Yuan, Y., Mei, X., Liu, X., Mandic, D., Wang, W., & Plumbley, M. D. (2023). Audioldm: Text-to-audio generation with latent diffusion models. arXiv preprint arXiv:2301.12503.
    • Liu, H., Le Lan, G., Mei, X., Ni, Z., Kumar, A., Nagaraja, V., Wang, W., Plumbley, M. D., Shi, Y., & Chandra, V. (2024a). Syncflow: Toward temporally aligned joint audio-video generation from text. arXiv preprint arXiv:2412.15220.
    • Liu, H., Yuan, Y., Liu, X., Mei, X., Kong, Q., Tian, Q., Wang, Y., Wang, W., Wang, Y., & Plumbley, M. D. (2024b). Audioldm 2: Learning holistic audio generation with self-supervised pretraining. IEEE/ACM Transactions on Audio, Speech, and Language Processing.
    • Liu, K., Li, W., Chen, L., Wu, S., Zheng, Y., Ji, J., Zhou, F., Jiang, R., Luo, J., Fei, H., et al. (2025). Javisdit: Joint audio-video diffusion transformer with hierarchical spatio-temporal prior synchronization. arXiv preprint arXiv:2503.23377.
    • Nishimura, T., Nakada, S., & Kondo, M. (2024). On the audio hallucinations in large audio-video language models. arXiv preprint arXiv:2401.09774.
    • Peebles, W., & Xie, S. (2022). Scalable diffusion models with transformers. arXiv preprint arXiv:2212.09748.
    • Perez, E., Strub, F., De Vries, H., Dumoulin, V., & Courville, A. (2018). Film: Visual reasoning with a general conditioning layer. Proceedings of the AAAI conference on artificial intelligence.
    • Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., et al. (2021). Learning transferable visual models from natural language supervision. International conference on machine learning.
    • Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., & Liu, P. J. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of Machine Learning Research.
    • Ruan, L., Ma, Y., Yang, H., He, H., Liu, B., Fu, J., Yuan, N. J., Jin, Q., & Guo, B. (2023). Mm-diffusion: Learning multi-modal diffusion models for joint audio and video generation. CVPR.
    • Salimans, T., & Ho, J. (2022). Progressive distillation for fast sampling of diffusion models. arXiv preprint arXiv:2202.00512.
    • Sun, M., Wang, W., Qiao, Y., Sun, J., Qin, Z., Guo, L., Zhu, X., & Liu, J. (2024). Mm-ldm: Multi-modal latent diffusion model for sounding video generation. Proceedings of the 32nd ACM International Conference on Multimedia.
    • Sung-Bin, K., Hyun-Bin, O., Lee, J., Senocak, A., Chung, J. S., & Oh, T. H. (2024). Avhbench: A cross-modal hallucination benchmark for audio-visual large language models. arXiv preprint arXiv:2410.18325.
    • Tang, Z., Yang, Z., Zhu, C., Zeng, M., & Bansal, M. (2023). Any-to-any generation via composable diffusion. Advances in Neural Information Processing Systems.
    • Teng, F., Yu, Z., Shi, Q., Zhang, J., Wu, C., & Luo, Y. (2025). Atom of thoughts for markov llm test-time scaling. arXiv preprint arXiv:2502.12018.
    • Unterthiner, T., Van Steenkiste, S., Kurach, K., Marinier, R., Michalski, M., & Gelly, S. (2018). Towards accurate generative models of video: A new metric & challenges. arXiv preprint arXiv:1812.01717.
    • Wan, T., Wang, A., Ai, B., Wen, B., Mao, C., Xie, C. W., Chen, D., Yu, F., Zhao, H., Yang, J., et al. (2025). Wan: Open and advanced large-scale video generative models. arXiv preprint arXiv:2503.20314.
    • Wang, J., Yuan, H., Chen, D., Zhang, Y., Wang, X., & Zhang, S. (2023). Modelscope text-to-video technical report. arXiv preprint arXiv:2308.06571.
    • Wang, J., Zeng, X., Qiang, C., Chen, R., Wang, S., Wang, L., Zhou, W., Cai, P., Zhao, J., Li, N., et al. (2025a). Kling-foley: Multimodal diffusion transformer for high-quality video-to-audio generation. arXiv preprint arXiv:2506.19774.
    • Wang, K., Deng, S., Shi, J., Hatzinakos, D., & Tian, Y. (2024a). Av-dit: Efficient audio-visual diffusion transformer for joint audio and video generation. arXiv preprint arXiv:2406.07686.
    • Wang, X., Wang, Y., Wu, Y., Song, R., Tan, X., Chen, Z., Xu, H., & Sui, G. (2024b). Tiva: Time-aligned video-to-audio generation. Proceedings of the 32nd ACM International Conference on Multimedia.
    • Wang, X., Song, R., Li, C., Cheng, X., Li, B., Wu, Y., Wang, Y., Xu, H., & Wang, Y. (2025b). Animate and sound an image. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).
    • Wei, J., Wang, X., Schuurmans, D., Bosma, M., Xia, F., Chi, E., Le, Q. V., Zhou, D., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. Advances in neural information processing systems.
    • Kong, W. (2024). Hunyuanvideo: A systematic framework for large video generative models. arXiv preprint arXiv:2412.03603.
    • Weng, S., Zheng, H., Chang, Z., Li, S., Shi, B., & Wang, X. (2025). Audio-sync video generation with multi-stream temporal control. arXiv preprint arXiv:2506.08003.
    • Wu, C., Li, J., Zhou, J., Lin, J., Gao, K., Yan, K., Yin, S. M., Bai, S., Xu, X., Chen, Y., Chen, Y., Tang, Z., Zhang, Z., Wang, Z., Yang, A., Yu, B., Cheng, C., Liu, D., Li, D., Zhang, H., Meng, H., Wei, H., Ni, J., Chen, K., Cao, K., Peng, L., Qu, L., Wu, M., Wang, P., Yu, S., Wen, T., Feng, W., Xu, X., Wang, Y., Zhang, Y., Zhu, Y., Wu, Y., Cai, Y., & Liu, Z. (2025). Qwen-image technical report. arXiv preprint arXiv:2508.02324.
    • Xing, Y., He, Y., Tian, Z., Wang, X., & Chen, Q. (2024). Seeing and hearing: Open-domain visual-audio generation with diffusion latent aligners. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.
    • Xu, J., Guo, Z., He, J., Hu, H., He, T., Bai, S., Chen, K., Wang, J., Fan, Y., Dang, K., Zhang, B., Wang, X., Chu, Y., & Lin, J. (2025). Qwen2.5-omni technical report. arXiv preprint arXiv:2503.20215.
    • Yang, A., Yang, B., Zhang, B., Hui, B., Zheng, B., Yu, B., Li, C., Liu, D., Huang, F., Wei, H., Lin, H., Yang, J., Tu, J., Zhang, J., Yang, J., Yang, J., Zhou, J., Lin, J., Dang, K., Lu, K., Bao, K., Yang, K., Yu, L., Li, M., Xue, M., Zhang, P., Zhu, Q., Men, R., Lin, R., Li, T., Xia, T., Ren, X., Ren, X., Fan, Y., Su, Y., Zhang, Y., Wan, Y., Liu, Y., Cui, Z., Zhang, Z., & Qiu, Z. (2024). Qwen2.5 technical report. arXiv preprint arXiv:2412.15115.
    • Yariv, G., Gat, I., Benaim, S., Wolf, L., Schwartz, I., & Adi, Y. (2024). Diverse and aligned audio-to-video generation via text-to-video model adaptation. Proceedings of the AAAI Conference on Artificial Intelligence.
    • Zhang, L., Mo, S., Zhang, Y., & Morgado, P. (2024). Audio-synchronized visual animation. Proceedings of the European Conference on Computer Vision (ECCV).
    • Zhang, L., Rao, A., & Agrawala, M. (2023). Adding conditional control to text-to-image diffusion models. arXiv preprint arXiv:2302.05543.
    • Zhao, L., Feng, L., Ge, D., Chen, R., Yi, F., Zhang, C., Zhang, X. L., & Li, X. (2025). Uniform: A unified multi-task diffusion transformer for audio-video generation. arXiv preprint arXiv:2502.03897.
    • Zheng, Z., Peng, X., Yang, T., Shen, C., Li, S., Liu, H., Zhou, Y., Li, T., & You, Y. (2024). Open-sora: Democratizing efficient video production for all. arXiv preprint arXiv:2412.20404.
    • Çiçek, Ö., Abdulkadir, A., Lienkamp, S. S., Brox, T., & Ronneberger, O. (2016). 3d u-net: Learning dense volumetric segmentation from sparse annotation. arXiv preprint arXiv:1606.06650.

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen