Die Entwicklung großer Sprachmodelle (LLMs) hat sich auf multimodale Systeme ausgeweitet, die Text, Bilder und Sprache in einem einheitlichen Rahmen verarbeiten können. Das Training dieser Modelle erfordert im Vergleich zu reinen Text-LLMs deutlich größere Datensätze und Rechenressourcen. Um den Herausforderungen der Skalierung zu begegnen, stellen Forschende von Meta und der University of Washington Mixture-of-Transformers (MoT) vor, eine sparse multimodale Transformer-Architektur, die die Rechenkosten für das Vortraining deutlich reduziert.
MoT entkoppelt die Nicht-Embedding-Parameter des Modells nach Modalität – einschließlich Feedforward-Netzwerken, Aufmerksamkeitsmatrizen und Layernormalisierung – und ermöglicht so modalspezifische Verarbeitung mit globaler Selbstaufmerksamkeit über die gesamte Eingabesequenz. Anstatt alle Modalitäten mit denselben Parametern zu verarbeiten, verfügt jede Modalität über eigene spezialisierte Komponenten innerhalb des Transformers. Die globale Selbstaufmerksamkeit stellt sicher, dass Informationen über alle Modalitäten hinweg ausgetauscht werden können, wodurch die Fähigkeit des Modells verbessert wird, Beziehungen zwischen verschiedenen Datentypen zu verstehen.
MoT wurde in verschiedenen Szenarien und Modellgrößen evaluiert. Im Chameleon-7B-Szenario (autoregressive Text- und Bildgenerierung) erreicht MoT die Leistung des dichten Baselines mit nur 55,8 % der FLOPs (Floating Point Operations). Bei Erweiterung um Sprache erreicht MoT eine mit dem dichten Baseline vergleichbare Sprachleistung mit nur 37,2 % der FLOPs. Im Transfusion-Szenario, in dem Text und Bild mit unterschiedlichen Zielen trainiert werden, erreicht ein 7B-MoT-Modell die Leistung des dichten Baselines in der Bildmodalität mit einem Drittel der FLOPs, und ein 760M-MoT-Modell übertrifft ein 1,4B dichtes Baseline in Bezug auf wichtige Bildgenerierungsmetriken.
Die Systemprofilierung unterstreicht die praktischen Vorteile von MoT. So wird die Bildqualität des dichten Baselines in 47,2 % der Echtzeit und die Textqualität in 75,6 % der Echtzeit erreicht (gemessen auf AWS p4de.24xlarge-Instanzen mit NVIDIA A100-GPUs). Diese Ergebnisse deuten darauf hin, dass MoT nicht nur die theoretische Rechenkomplexität reduziert, sondern auch zu einer messbaren Beschleunigung des Trainings in realen Umgebungen führt.
MoT adressiert die Skalierungsherausforderungen beim Training multimodaler Foundation-Modelle. Durch die modalspezifische Verarbeitung und die globale Selbstaufmerksamkeit bietet MoT eine vielversprechende Architektur für die Entwicklung ressourceneffizienterer und leistungsfähigerer multimodaler KI-Systeme. Die Ergebnisse der Evaluierung zeigen, dass MoT die Leistung dichter Modelle erreichen oder sogar übertreffen kann und gleichzeitig den Rechenaufwand deutlich reduziert. Dies eröffnet neue Möglichkeiten für die Entwicklung und den Einsatz komplexer multimodaler Anwendungen.
Bibliographie Liang, W. et al. (2024). Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models. arXiv preprint arXiv:2411.04996. Shrivastava, A. et al. (2024). MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts. arXiv preprint arXiv:2407.21770v1. 01.AI et al. (2024). Yi: Open Foundation Models. arXiv preprint arXiv:2403.04652. Ma, S. et al. (2022). TorchScale: Transformers at Scale. arXiv preprint arXiv:2211.13184. Microsoft/Torchscale. (n.d.). GitHub. https://github.com/microsoft/torchscale Microsoft/UniLM. (n.d.). GitHub. https://github.com/microsoft/unilm Shrivastava, A. (2024, August 1). Excited to share our latest work on multimodal pre-training MoMa! [LinkedIn post]. LinkedIn. https://www.linkedin.com/posts/akshatsh_excited-to-share-our-latest-work-on-multimodal-activity-7224840416276144128-8mah Hugging Face – The AI community building the future. (n.d.). https://huggingface.co/papersEntdecken Sie die Vorteile gegenüber ChatGPT Plus
Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.
Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.
❌ Kein strukturierter Dokumentenvergleich
❌ Keine Bearbeitung im Dokumentkontext
❌ Keine Integration von Unternehmenswissen
✅ Gezielter Dokumentenvergleich mit Custom-Prompts
✅ Kontextbewusste Textbearbeitung im Editor
✅ Wissensbasierte Analyse & Zusammenfassungen
Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.
❌ Nur ein Modellanbieter (OpenAI)
❌ Keine Modellauswahl pro Use Case
❌ Keine zentrale Modellsteuerung für Teams
✅ Zugriff auf über 50 verschiedene KI-Modelle
✅ Modellauswahl pro Prompt oder Assistent
✅ Zentrale Steuerung auf Organisationsebene
❌ Keine echte Teamkollaboration
❌ Keine Rechte- oder Rollenverteilung
❌ Keine zentrale Steuerung oder Nachvollziehbarkeit
✅ Teamübergreifende Bearbeitung in Echtzeit
✅ Granulare Rechte- und Freigabeverwaltung
✅ Zentrale Steuerung & Transparenz auf Organisationsebene
Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.
Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.
🎯 Kostenlose Demo buchenLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen