Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Entwicklung grosser generativer Modelle für visuelle Inhalte hat in den letzten Jahren signifikante Fortschritte gemacht. Insbesondere im Bereich der Videogenerierung stellen die komplexen Herausforderungen der multimodalem Text-Video-Abstimmung, der Verarbeitung langer Sequenzen und der Modellierung komplexer raum-zeitlicher Abhängigkeiten weiterhin hohe Anforderungen an Rechenressourcen und Effizienz. Eine aktuelle Veröffentlichung von Shopee-MUG stellt das Modell MUG-V 10B vor, eine Trainingspipeline, die darauf abzielt, diese Herausforderungen durch eine Reihe von Optimierungen zu bewältigen und die Effizienz beim Training grosser Videogenerierungsmodelle erheblich zu steigern.
Das Herzstück von MUG-V 10B bildet ein Diffusion Transformer (DiT) mit etwa 10 Milliarden Parametern, der mittels Flow-Matching-Zielen trainiert wird. Dieses System wurde entwickelt, um eine hohe Trainingseffizienz zu gewährleisten, was sich in einer optimierten GPU-Auslastung (Mean-Frame-Utility, MFU) und einer nahezu linearen Skalierbarkeit über mehrere Knoten hinweg manifestiert. Die Forscher von Shopee-MUG haben dabei vier zentrale Säulen optimiert:
Die Architektur von MUG-V 10B basiert auf dem latenten Diffusion Transformer-Paradigma mit rektifizierten Flow-Matching-Zielen. Die Kernkomponenten umfassen einen VideoVAE zur raum-zeitlichen Komprimierung, ein 3D-Patch-Embedding zur Tokenisierung der Videolatenten, eine 3D Rotary Position Encoding (RoPE) zur Handhabung der zeitlichen Dimension und spezielle Konditionierungsmodule für Text, Zeitschritte und Grösseninformationen. Der MUGDiT Transformer Block integriert zudem AdaLN, Self-Attention mit QK-Norm, Gate-Mechanismen und Schichtnormalisierung, gefolgt von Cross-Attention und einem MLP.
MUG-V 10B ermöglicht die Generierung von Videos mit hoher Qualität, einschliesslich Auflösungen von bis zu 720p und Clip-Längen von 3–5 Sekunden. Ein weiteres Merkmal ist die Unterstützung flexibler Seitenverhältnisse wie 16:9, 4:3, 1:1, 3:4 und 9:16. Das System unterstützt zudem die Bild-zu-Video-Generierung (I2V), bei der ein Referenzbild als Bedingung für die Videogenerierung dient.
Die Veröffentlichung des vollständigen Stacks, einschliesslich Modellgewichten, des auf Megatron-Core basierenden Trainingscodes und der Inferenz-Pipelines für Videogenerierung und -verbesserung, zielt darauf ab, den Fortschritt in der skalierbaren Modellierung der visuellen Welt zu beschleunigen und die Einstiegshürden für Forscher und Entwickler zu senken. Insbesondere im E-Commerce-Bereich hat MUG-V 10B in menschlichen Bewertungen andere führende Open-Source-Baselines übertroffen.
Für die Implementierung von MUG-V 10B werden spezifische Voraussetzungen genannt: Python ≥ 3.8 (getestet mit 3.10), CUDA 12.1 und eine NVIDIA GPU mit mindestens 24 GB VRAM für die Inferenz des 10-Milliarden-Parameter-Modells. Die Installation erfolgt über Conda und pip, wobei auch die Installation von flash_attn empfohlen wird.
Die vorab trainierten Modelle können über die Hugging Face CLI heruntergeladen werden. Die Konfiguration der Modellpfade für VAE und DiT erfolgt in der infer_pipeline.MUGDiTConfig. Die Nutzung ist sowohl über eine Python API als auch über die Kommandozeile möglich, was eine flexible Integration in bestehende Workflows erlaubt.
Ein Beispiel für die Videogenerierung umfasst die Initialisierung der Pipeline mit einer Konfiguration und die anschliessende Generierung eines Videos mittels eines Textprompts und optional eines Referenzbildes. Die Video-Enhancement-Funktion, basierend auf WAN-2.1 1.3B, kann zur Verbesserung der durch MUG-DiT-10B generierten Videos eingesetzt werden, um Details wiederherzustellen und die zeitliche Konsistenz zu optimieren.
Die Veröffentlichung von MUG-V 10B und des zugehörigen Frameworks ist ein Beitrag zur Weiterentwicklung von Videogenerierungsmodellen. Durch die Bereitstellung eines leistungsfähigen und effizienten Trainings- und Inferenzsystems können sowohl akademische Forschung als auch kommerzielle Anwendungen von den Fortschritten profitieren. Die Nutzung von Megatron-Core zur Erreichung hoher Trainingseffizienz und Skalierbarkeit unterstreicht die Bedeutung robuster Infrastrukturlösungen für die Entwicklung fortschrittlicher KI-Modelle.
Für Unternehmen, die im Bereich der KI-gestützten Inhaltserstellung tätig sind, wie Mindverse, bieten solche Entwicklungen die Möglichkeit, die Effizienz und Qualität ihrer eigenen Tools zu überprüfen und möglicherweise zu verbessern. Die Fähigkeit, hochwertige Videos aus Text und Bildern zu generieren, eröffnet neue Wege für Marketing, Medienproduktion und andere Branchen, die von der automatisierten Inhaltserstellung profitieren. Die kontinuierliche Verbesserung und Zugänglichkeit solcher Modelle ist entscheidend für die Demokratisierung fortschrittlicher KI-Technologien.
Die Forschungsarbeit betont die Notwendigkeit, sich den komplexen Herausforderungen der Videogenerierung durch multidisziplinäre Ansätze zu stellen, die Datenverarbeitung, Modellarchitektur, Trainingsstrategien und Infrastruktur umfassen. MUG-V 10B ist ein Beispiel für die Fortschritte, die durch solche integrierten Forschungsbemühungen erzielt werden können.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen