Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Entwicklung großer Sprachmodelle (LLMs) hat sich auf multimodale Systeme ausgeweitet, die Text, Bilder und Sprache in einem einheitlichen Rahmen verarbeiten können. Das Training dieser Modelle erfordert im Vergleich zu reinen Text-LLMs deutlich größere Datensätze und Rechenressourcen. Um den Herausforderungen der Skalierung zu begegnen, stellen Forschende von Meta und der University of Washington Mixture-of-Transformers (MoT) vor, eine sparse multimodale Transformer-Architektur, die die Rechenkosten für das Vortraining deutlich reduziert.
MoT entkoppelt die Nicht-Embedding-Parameter des Modells nach Modalität – einschließlich Feedforward-Netzwerken, Aufmerksamkeitsmatrizen und Layernormalisierung – und ermöglicht so modalspezifische Verarbeitung mit globaler Selbstaufmerksamkeit über die gesamte Eingabesequenz. Anstatt alle Modalitäten mit denselben Parametern zu verarbeiten, verfügt jede Modalität über eigene spezialisierte Komponenten innerhalb des Transformers. Die globale Selbstaufmerksamkeit stellt sicher, dass Informationen über alle Modalitäten hinweg ausgetauscht werden können, wodurch die Fähigkeit des Modells verbessert wird, Beziehungen zwischen verschiedenen Datentypen zu verstehen.
MoT wurde in verschiedenen Szenarien und Modellgrößen evaluiert. Im Chameleon-7B-Szenario (autoregressive Text- und Bildgenerierung) erreicht MoT die Leistung des dichten Baselines mit nur 55,8 % der FLOPs (Floating Point Operations). Bei Erweiterung um Sprache erreicht MoT eine mit dem dichten Baseline vergleichbare Sprachleistung mit nur 37,2 % der FLOPs. Im Transfusion-Szenario, in dem Text und Bild mit unterschiedlichen Zielen trainiert werden, erreicht ein 7B-MoT-Modell die Leistung des dichten Baselines in der Bildmodalität mit einem Drittel der FLOPs, und ein 760M-MoT-Modell übertrifft ein 1,4B dichtes Baseline in Bezug auf wichtige Bildgenerierungsmetriken.
Die Systemprofilierung unterstreicht die praktischen Vorteile von MoT. So wird die Bildqualität des dichten Baselines in 47,2 % der Echtzeit und die Textqualität in 75,6 % der Echtzeit erreicht (gemessen auf AWS p4de.24xlarge-Instanzen mit NVIDIA A100-GPUs). Diese Ergebnisse deuten darauf hin, dass MoT nicht nur die theoretische Rechenkomplexität reduziert, sondern auch zu einer messbaren Beschleunigung des Trainings in realen Umgebungen führt.
MoT adressiert die Skalierungsherausforderungen beim Training multimodaler Foundation-Modelle. Durch die modalspezifische Verarbeitung und die globale Selbstaufmerksamkeit bietet MoT eine vielversprechende Architektur für die Entwicklung ressourceneffizienterer und leistungsfähigerer multimodaler KI-Systeme. Die Ergebnisse der Evaluierung zeigen, dass MoT die Leistung dichter Modelle erreichen oder sogar übertreffen kann und gleichzeitig den Rechenaufwand deutlich reduziert. Dies eröffnet neue Möglichkeiten für die Entwicklung und den Einsatz komplexer multimodaler Anwendungen.
Bibliographie Liang, W. et al. (2024). Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models. arXiv preprint arXiv:2411.04996. Shrivastava, A. et al. (2024). MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts. arXiv preprint arXiv:2407.21770v1. 01.AI et al. (2024). Yi: Open Foundation Models. arXiv preprint arXiv:2403.04652. Ma, S. et al. (2022). TorchScale: Transformers at Scale. arXiv preprint arXiv:2211.13184. Microsoft/Torchscale. (n.d.). GitHub. https://github.com/microsoft/torchscale Microsoft/UniLM. (n.d.). GitHub. https://github.com/microsoft/unilm Shrivastava, A. (2024, August 1). Excited to share our latest work on multimodal pre-training MoMa! [LinkedIn post]. LinkedIn. https://www.linkedin.com/posts/akshatsh_excited-to-share-our-latest-work-on-multimodal-activity-7224840416276144128-8mah Hugging Face – The AI community building the future. (n.d.). https://huggingface.co/papersLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen