KI für Ihr Unternehmen – Jetzt Demo buchen

Neuer Ansatz für multimodale Generierung: Das MoS-Framework

Kategorien:
No items found.
Freigegeben:
November 20, 2025

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Das MoS-Framework (Mixture of States) führt einen neuartigen Fusionsansatz für multimodale Diffusionsmodelle ein, der verschiedene Modalitäten durch flexible, zustandsbasierte Interaktionen zusammenführt.
    • Ein lernbarer, Token-basierter Router ist das Herzstück von MoS. Er ermöglicht zeit- und eingabeabhängige Interaktionen zwischen den verborgenen Zuständen der Modalitäten, wodurch Token-Level-Merkmale präzise an die Diffusionsbahn angepasst werden.
    • MoS-Modelle (3B bis 5B Parameter) erzielen bei der Text-zu-Bild-Generierung und Bildbearbeitung hochmoderne Ergebnisse und übertreffen oder erreichen die Leistung von Modellen, die bis zu viermal größer sind.
    • Der MoS-Router ist leichtgewichtig und verursacht einen vernachlässigbaren Rechenaufwand, was eine hohe Effizienz bei der Skalierung multimodaler Diffusionsmodelle ermöglicht.
    • Das Framework basiert auf drei Kernprinzipien: adaptive Schichtauswahl, dynamische und zeitschrittabhängige Bedingungssignale sowie Token-spezifische Konditionierung.

    Revolution in der multimodalen Generierung: Das "Mixture of States" (MoS)-Framework

    Die Forschung im Bereich der künstlichen Intelligenz hat in den letzten Jahren erhebliche Fortschritte gemacht, insbesondere bei der Entwicklung multimodaler generativer Modelle. Diese Modelle sind in der Lage, hochwertige Inhalte wie Bilder oder Videos aus verschiedenen Eingabemodalitäten zu synthetisieren. Eine neue Forschungsarbeit mit dem Titel "Mixture of States: Routing Token-Level Dynamics for Multimodal Generation" (MoS) stellt nun einen innovativen Ansatz vor, der darauf abzielt, die Effizienz und Leistungsfähigkeit dieser Modelle signifikant zu verbessern.

    Die Herausforderung der multimodalen Fusion

    Die zentrale Herausforderung bei der multimodalen Generierung, insbesondere bei der Text-zu-Bild-Generierung und der instruktionsbasierten Bildbearbeitung, liegt in der effektiven Abstimmung textueller und visueller Signale. Dies ist anspruchsvoll, da Textmodelle und visuelle Modelle typischerweise mit unterschiedlichen Lernzielen und Architekturen trainiert werden. Bisherige Ansätze wie Cross-Attention, Self-Attention oder Mixture-of-Transformers (MoT) haben versucht, diese Diskrepanz durch handgefertigte Designs zu überbrücken. Diese Methoden sind jedoch oft mit Einschränkungen behaftet, wie starren Schichtausrichtungen oder hohen Rechenkosten.

    MoS: Ein Paradigmenwechsel durch dynamisches Routing

    Das von Haozhe Liu und einem Team von Forschenden entwickelte MoS-Framework bietet eine neue Fusionsstrategie, die flexible, zustandsbasierte Interaktionen zwischen Modalitäten ermöglicht. Das Herzstück von MoS ist ein lernbarer, Token-basierter Router. Dieser Router schafft zeitschritt- und eingabeabhängige Interaktionen zwischen den verborgenen Zuständen der Modalitäten und richtet Token-Level-Merkmale präzise an der Diffusionsbahn aus. Dies ermöglicht eine dynamische und sparsame Auswahl der relevantesten verborgenen Zustände, wodurch kontextbezogene Merkmale mit minimalen lernbaren Parametern und vernachlässigbarem Rechenaufwand effizient ausgewählt werden.

    Drei Kernprinzipien des MoS-Designs

    Die Entwicklung von MoS basiert auf drei kritischen Designprinzipien, die etablierte Paradigmen in Frage stellen:

    • Adaptive Schichtauswahl: Im Gegensatz zu Ansätzen, die eine einzelne feste Schicht oder eine starre Eins-zu-Eins-Schichtausrichtung verwenden, hat sich gezeigt, dass diese suboptimal sind. Diffusionsmodelle verbrauchen Sprachmerkmale nicht in einer streng sequenziellen oder schichtausgerichteten Weise, was einen flexiblen Auswahlmechanismus unerlässlich macht.
    • Dynamische und zeitschrittabhängige Bedingungssignale: Moderne Text-zu-Bild-Systeme kodieren den Text oft einmal und halten ihn während des gesamten Denoising-Prozesses statisch. MoS zeigt, dass dies zu einer Informationsfehlanpassung mit der sich entwickelnden Natur der Diffusionsbahn führt. Bedingungssignale sollten sich an das Rauschlevel und den Denoising-Schritt anpassen, anstatt fixiert zu bleiben.
    • Token-spezifische Konditionierung: Die Forschungsergebnisse legen nahe, dass es effektiver ist, jedem Token zu ermöglichen, seine Repräsentation adaptiv aus verschiedenen Schichten zu beziehen, anstatt eine einzige, gemeinsam genutzte Schichteinbettung zu verwenden, um alle Token gleichmäßig darzustellen. Dies unterstützt eine granularere, Token-Level-Ansicht der Kontextkonditionierung.

    Architektur und Funktionsweise

    MoS verwendet eine Dual-Tower-Architektur mit einem Verständnis-Tower (Understanding Tower) und einem Generierungs-Tower (Generation Tower). Der Verständnis-Tower verarbeitet den multimodalen Kontext (Text für Text-zu-Bild; Text + Bild für Bildbearbeitung) und erzeugt kontextuelle Repräsentationen. Der Generierungs-Tower nutzt diese Repräsentationen für die visuelle Synthese. Der lernbare Router \(\mathcal{R}\) vermittelt dynamisch die Interaktion zwischen diesen beiden Türmen.

    • Router-Eingaberaum: Der Router erhält als Eingabe den Denoising-Schritt \(t\), die verrauschte Bildeinbettung \(z_t\) und die Kontexteinbettung \(c\). Dies ermöglicht es ihm, zeitlich variierende Routing-Muster zu lernen.
    • Router-Ausgaberaum: Für jedes Token im Kontext-Prompt generiert der Router eine Logit-Matrix, die die Affinitätsgewichte für das Routing von verborgenen Zuständen zwischen den Schichten der Verständnis- und Generierungs-Türme darstellt. Diese Routing-Entscheidungen sind Token-spezifisch.
    • Leichtgewichtiges Router-Design: Der Router selbst ist ein schlanker Transformer mit etwa 100 Millionen Parametern, der nur einen vernachlässigbaren Rechenaufwand verursacht.
    • Sparsity und \(\epsilon\)-Greedy Exploration: Der Router verwendet eine spärliche Top-k-Routing-Strategie, bei der nur die Top-k-verborgenen Zustände mit den höchsten Gewichten ausgewählt werden. Eine \(\epsilon\)-Greedy-Strategie während des Trainings fördert die Exploration und verhindert, dass der Router in suboptimalen lokalen Lösungen stecken bleibt.

    Leistung und Effizienz

    Die Validierung des MoS-Designs erfolgte durch Text-zu-Bild-Generierung (MoS-Image) und Bildbearbeitung (MoS-Editing). Die Ergebnisse zeigen, dass MoS-Modelle hochmoderne Leistungen erzielen. Bemerkenswert ist, dass Modelle mit nur 3B bis 5B Parametern die Leistung von Modellen, die bis zu viermal größer sind, erreichen oder sogar übertreffen können. Dies unterstreicht die außergewöhnliche Recheneffizienz von MoS.

    In Experimenten zur Router-Effizienz zeigte sich, dass der Router selbst nur 0,008 Sekunden pro Iteration zur End-to-End-Latenz bei der Generierung eines 1024x1024 Bildes beiträgt. Dieser geringe Overhead wird noch kleiner, wenn MoS mit größeren Generierungs-Türmen kombiniert wird.

    Ablationsstudien bestätigen Designprinzipien

    Umfangreiche Ablationsstudien untermauerten die Designentscheidungen von MoS:

    • Die dynamische Konditionierung des Routers mit Prompt, verrauschtem Latent und Zeitschritt führte zu den besten Leistungen.
    • Die Token-spezifische Vorhersage des Routers übertraf die Stichproben-weise Vorhersage, was die Bedeutung von Token-Level-Dynamiken bestätigt.
    • Die adaptive Schichtauswahl von MoS übertraf starre, handgefertigte Routing-Designs und Mixture-of-Transformers (MoT), die eine feste Eins-zu-Eins-Schichtkorrespondenz erfordern.

    Anwendungen: Bildgenerierung und Bildbearbeitung

    Text-zu-Bild-Generierung (MoS-Image): MoS-Image erreicht bei standardisierten Benchmarks wie GenEval, DPG, WISE und oneIG-EN durchweg überlegene Ergebnisse im Vergleich zu bestehenden Ansätzen, selbst bei deutlich geringerer Parameterzahl. Es zeigt eine präzisere Ausrichtung an den Eingabe-Prompts, auch bei komplexen Szenarien mit mehreren Entitäten oder dichtem visuellen Text.

    Instruktionsbasierte Bildbearbeitung (MoS-Edit): Bei Benchmarks wie ImgEdit und GEdit erreicht das 5B-Parameter-Modell von MoS-Edit ebenfalls hochmoderne Leistungen. Es erzeugt Ergebnisse, die präzise mit den gegebenen Anweisungen und Referenzbildern übereinstimmen und übertrifft dabei konkurrierende Methoden.

    Ausblick und zukünftige Forschungsrichtungen

    Das MoS-Framework markiert einen bedeutenden Schritt in der Entwicklung skalierbarer multimodaler generativer Modelle. Durch die Flexibilität, Effizienz und Vereinheitlichung bietet es eine solide Grundlage für zukünftige Forschung und Implementierung. Die Forschenden identifizierten jedoch auch Bereiche für zukünftige Studien, darunter die Validierung der Effektivität von MoS in Early-Fusion-Settings, die Ausrichtung an menschlichen Präferenzen, weitere Effizienzverbesserungen durch Techniken wie Low-Precision Quantisierung oder Modell-Destillation und die Erforschung der Erklärbarkeit von Cross-Modal-Interaktionen mittels Router-Vorhersagen.

    Die Ergebnisse von MoS zeigen, dass eine intelligente, adaptive Steuerung der Token-Level-Dynamiken den Weg ebnen kann für KI-Modelle, die nicht nur leistungsfähiger, sondern auch deutlich effizienter in ihren Ressourcen sind.

    Bibliographie

    • Liu, H., Liu, D., Zhuge, M., Zhou, Z., Xie, T., He, S., Yang, Y., Liu, S., Cong, Y., Guo, J., Xu, H., Xu, K., Ng, K., Pérez, J. C., Pérez-Rúa, J.-M., Xiang, T., Liu, W., Liu, S., & Schmidhuber, J. (2025). Mixture of States: Routing Token-Level Dynamics for Multimodal Generation. arXiv. https://arxiv.org/abs/2511.12207
    • Hugging Face. (2025). Routing Token-Level Dynamics for Multimodal Generation. Hugging Face Papers. https://huggingface.co/papers/2511.12207
    • ChatPaper. (2025). Mixture of States: Routing Token-Level Dynamics for Multimodal Generation. ChatPaper. https://chatpaper.com/fr/chatpaper/paper/210703
    • ResearchGate. (2025). Mixture of Experts in Large Language Models. ResearchGate. https://www.researchgate.net/publication/393724282_Mixture_of_Experts_in_Large_Language_Models
    • Bae, S., Kim, Y., Bayat, R., Kim, S., Ha, J., Schuster, T., Fisch, A., Harutyunyan, H., Ji, Z., Courville, A., & Yun, S.-Y. (o. J.). Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation. GPTShop.ai. https://gptshop.ai/paper/MoR.pdf

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen