MUG-V 10B: Fortschritte in der Videogenerierung durch effiziente Trainingspipelines

Kategorien:

No items found.

Freigegeben:

October 31, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

MUG-V 10B ist ein von Shopee-MUG entwickeltes Modell zur effizienten Generierung grosser Videodaten.
Das System nutzt einen Diffusion Transformer (DiT) mit rund 10 Milliarden Parametern und Flow-Matching-Zielen.
Es bietet eine hohe Trainingseffizienz und nahezu lineare Skalierbarkeit durch die Integration von Megatron-Core.
Die Veröffentlichung umfasst Modellgewichte, Trainingscode und Inferenz-Pipelines für Videogenerierung und -verbesserung.
MUG-V 10B erreicht eine hohe Videoqualität (bis zu 720p, 3–5 Sekunden Clips) und unterstützt flexible Seitenverhältnisse.

MUG-V 10B: Effizienzsteigerung im Training grosser Videogenerierungsmodelle

Die Entwicklung grosser generativer Modelle für visuelle Inhalte hat in den letzten Jahren signifikante Fortschritte gemacht. Insbesondere im Bereich der Videogenerierung stellen die komplexen Herausforderungen der multimodalem Text-Video-Abstimmung, der Verarbeitung langer Sequenzen und der Modellierung komplexer raum-zeitlicher Abhängigkeiten weiterhin hohe Anforderungen an Rechenressourcen und Effizienz. Eine aktuelle Veröffentlichung von Shopee-MUG stellt das Modell MUG-V 10B vor, eine Trainingspipeline, die darauf abzielt, diese Herausforderungen durch eine Reihe von Optimierungen zu bewältigen und die Effizienz beim Training grosser Videogenerierungsmodelle erheblich zu steigern.

Architektur und Kerninnovationen von MUG-V 10B

Das Herzstück von MUG-V 10B bildet ein Diffusion Transformer (DiT) mit etwa 10 Milliarden Parametern, der mittels Flow-Matching-Zielen trainiert wird. Dieses System wurde entwickelt, um eine hohe Trainingseffizienz zu gewährleisten, was sich in einer optimierten GPU-Auslastung (Mean-Frame-Utility, MFU) und einer nahezu linearen Skalierbarkeit über mehrere Knoten hinweg manifestiert. Die Forscher von Shopee-MUG haben dabei vier zentrale Säulen optimiert:

Datenverarbeitung: Effiziente Vorverarbeitung von Videodaten, einschliesslich Kodierung und Text-Kodierung.
Modellarchitektur: Ein fortschrittlicher DiT, der für die komplexen raum-zeitlichen Abhängigkeiten von Videos optimiert ist.
Trainingsstrategie: Curriculum-basiertes Vortraining und auf Abstimmung fokussiertes Nachtraining für verbesserte Leistung.
Infrastruktur: Nutzung von Megatron-Core für eine effiziente und skalierbare Trainingsumgebung.

Die Architektur von MUG-V 10B basiert auf dem latenten Diffusion Transformer-Paradigma mit rektifizierten Flow-Matching-Zielen. Die Kernkomponenten umfassen einen VideoVAE zur raum-zeitlichen Komprimierung, ein 3D-Patch-Embedding zur Tokenisierung der Videolatenten, eine 3D Rotary Position Encoding (RoPE) zur Handhabung der zeitlichen Dimension und spezielle Konditionierungsmodule für Text, Zeitschritte und Grösseninformationen. Der MUGDiT Transformer Block integriert zudem AdaLN, Self-Attention mit QK-Norm, Gate-Mechanismen und Schichtnormalisierung, gefolgt von Cross-Attention und einem MLP.

Leistungsmerkmale und Anwendungsbereiche

MUG-V 10B ermöglicht die Generierung von Videos mit hoher Qualität, einschliesslich Auflösungen von bis zu 720p und Clip-Längen von 3–5 Sekunden. Ein weiteres Merkmal ist die Unterstützung flexibler Seitenverhältnisse wie 16:9, 4:3, 1:1, 3:4 und 9:16. Das System unterstützt zudem die Bild-zu-Video-Generierung (I2V), bei der ein Referenzbild als Bedingung für die Videogenerierung dient.

Die Veröffentlichung des vollständigen Stacks, einschliesslich Modellgewichten, des auf Megatron-Core basierenden Trainingscodes und der Inferenz-Pipelines für Videogenerierung und -verbesserung, zielt darauf ab, den Fortschritt in der skalierbaren Modellierung der visuellen Welt zu beschleunigen und die Einstiegshürden für Forscher und Entwickler zu senken. Insbesondere im E-Commerce-Bereich hat MUG-V 10B in menschlichen Bewertungen andere führende Open-Source-Baselines übertroffen.

Technische Details der Implementierung

Für die Implementierung von MUG-V 10B werden spezifische Voraussetzungen genannt: Python ≥ 3.8 (getestet mit 3.10), CUDA 12.1 und eine NVIDIA GPU mit mindestens 24 GB VRAM für die Inferenz des 10-Milliarden-Parameter-Modells. Die Installation erfolgt über Conda und pip, wobei auch die Installation von flash_attn empfohlen wird.

Die vorab trainierten Modelle können über die Hugging Face CLI heruntergeladen werden. Die Konfiguration der Modellpfade für VAE und DiT erfolgt in der infer_pipeline.MUGDiTConfig. Die Nutzung ist sowohl über eine Python API als auch über die Kommandozeile möglich, was eine flexible Integration in bestehende Workflows erlaubt.

Ein Beispiel für die Videogenerierung umfasst die Initialisierung der Pipeline mit einer Konfiguration und die anschliessende Generierung eines Videos mittels eines Textprompts und optional eines Referenzbildes. Die Video-Enhancement-Funktion, basierend auf WAN-2.1 1.3B, kann zur Verbesserung der durch MUG-DiT-10B generierten Videos eingesetzt werden, um Details wiederherzustellen und die zeitliche Konsistenz zu optimieren.

Ausblick und Relevanz für die KI-Landschaft

Die Veröffentlichung von MUG-V 10B und des zugehörigen Frameworks ist ein Beitrag zur Weiterentwicklung von Videogenerierungsmodellen. Durch die Bereitstellung eines leistungsfähigen und effizienten Trainings- und Inferenzsystems können sowohl akademische Forschung als auch kommerzielle Anwendungen von den Fortschritten profitieren. Die Nutzung von Megatron-Core zur Erreichung hoher Trainingseffizienz und Skalierbarkeit unterstreicht die Bedeutung robuster Infrastrukturlösungen für die Entwicklung fortschrittlicher KI-Modelle.

Für Unternehmen, die im Bereich der KI-gestützten Inhaltserstellung tätig sind, wie Mindverse, bieten solche Entwicklungen die Möglichkeit, die Effizienz und Qualität ihrer eigenen Tools zu überprüfen und möglicherweise zu verbessern. Die Fähigkeit, hochwertige Videos aus Text und Bildern zu generieren, eröffnet neue Wege für Marketing, Medienproduktion und andere Branchen, die von der automatisierten Inhaltserstellung profitieren. Die kontinuierliche Verbesserung und Zugänglichkeit solcher Modelle ist entscheidend für die Demokratisierung fortschrittlicher KI-Technologien.

Die Forschungsarbeit betont die Notwendigkeit, sich den komplexen Herausforderungen der Videogenerierung durch multidisziplinäre Ansätze zu stellen, die Datenverarbeitung, Modellarchitektur, Trainingsstrategien und Infrastruktur umfassen. MUG-V 10B ist ein Beispiel für die Fortschritte, die durch solche integrierten Forschungsbemühungen erzielt werden können.

Bibliographie

- Shopee-MUG. (2025). MUG-V 10B: High-efficiency Training Pipeline for Large Video Generation Models. GitHub Repository. Verfügbar unter: https://github.com/Shopee-MUG/MUG-V - Zhang, Y., Fan, Z., Zhang, Y., et al. (2025). MUG-V 10B: High-efficiency Training Pipeline for Large Video Generation Models. arXiv preprint arXiv:2510.17519. Verfügbar unter: https://arxiv.org/abs/2510.17519 - Hugging Face. (2025). Daily Papers. Verfügbar unter: https://huggingface.co/papers - Paperreading.club. (2025). High-efficiency Training Pipeline for Large Video Generation Models. Verfügbar unter: https://paperreading.club/page?id=349065 - CVPR. (2025). HOIGen-1M: A Large-scale Dataset for Human-Object Interaction Video Generation. Poster. Verfügbar unter: https://cvpr.thecvf.com/virtual/2025/poster/32465 - Zhang, R., Gui, L., Sun, Z., et al. (2025). Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward. Proceedings of the 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers), pp. 694–717. Verfügbar unter: https://aclanthology.org/2025.naacl-long.30.pdf