Die rasante Entwicklung und Verbreitung großer Sprachmodelle (LLMs) hat zur zunehmenden Bedeutung von Mixture-of-Experts (MoE)-Architekturen geführt. Diese Architekturen nutzen dynamisch spezialisierte Subnetzwerke, sogenannte "Experten", um sowohl die Effizienz als auch die Leistung von LLMs zu steigern. Trotz ihrer Vorteile stehen MoE-Modelle während der Inferenz vor großen Herausforderungen. Insbesondere ineffizientes Speichermanagement und suboptimale Batching-Verfahren, die auf unzureichend abgestimmte Designentscheidungen zwischen der Modellarchitektur und den Systemrichtlinien zurückzuführen sind, erschweren den Einsatz von MoE-Modellen. Darüber hinaus wird der konventionelle Ansatz, MoEs von Grund auf neu zu trainieren, mit zunehmender Modellgröße immer kostspieliger.
Effizientere Inferenz und reduzierte Trainingskosten
Um diese Herausforderungen zu bewältigen, wurde das neuartige Framework "Read-ME" entwickelt. Read-ME transformiert vortrainierte, dichte LLMs in kleinere MoE-Modelle, im Gegensatz zum "Upcycling"-Ansatz, bei dem generalistische MoEs zum Einsatz kommen. Durch die Umwandlung bereits existierender Modelle umgeht Read-ME die hohen Kosten eines vollständigen Trainings.
Der Ansatz von Read-ME nutzt die sogenannte Aktivierungssparsity, um Experten aus dem dichten LLM zu extrahieren. Bei der Zusammensetzung der Experten wird das weit verbreitete Design von Layer-weisen Routern auf seine Redundanz hin untersucht. Basierend auf dieser Analyse führt Read-ME einen vom MoE-Backbone entkoppelten Pre-Gating-Router ein. Dieser ermöglicht systemfreundliches Pre-Computing und Lookahead-Scheduling, wodurch sowohl das Expert-aware Batching als auch das Caching verbessert werden.
Experten für spezifische Aufgaben
Doch wie funktioniert die Umwandlung von dichten LLMs in spezialisierte Experten im Detail? Der Pre-Gating-Router spielt dabei eine zentrale Rolle. Anstatt für jede Schicht des Modells einen eigenen Router zu verwenden, analysiert der Pre-Gating-Router alle eingehenden Anfragen, bevor die eigentlichen Berechnungen im MoE-Modell stattfinden. Anhand der Anfrage kann der Router bereits im Voraus entscheiden, welche Experten für die Bearbeitung der Anfrage benötigt werden. Diese Informationen nutzt Read-ME, um die Abarbeitung der Anfragen zu optimieren. Anfragen, die denselben Experten benötigen, können beispielsweise in einem Batch zusammengefasst werden, was die Inferenzgeschwindigkeit deutlich erhöht. Zusätzlich ermöglicht der Pre-Gating-Router ein effizientes Caching der Experten. Da die benötigten Experten bereits im Voraus bekannt sind, können diese gezielt in den Arbeitsspeicher geladen werden, wodurch sich die Latenzzeiten reduzieren.
Leistungssteigerung und geringere Latenzzeiten
Evaluierungen von Read-ME haben gezeigt, dass das Framework im Vergleich zu anderen Open-Source-Modellen und Kompressionstechniken mit ähnlicher Größe, beispielsweise bei Aufgaben wie MMLU, eine höhere Leistung erzielt. Konkret konnte Read-ME die Leistung um bis zu 10,1 % steigern und gleichzeitig die mittlere End-to-End-Latenz um bis zu 6,1 % reduzieren.
Zusammenfassend lässt sich sagen, dass Read-ME einen vielversprechenden Ansatz darstellt, um die Herausforderungen bei der Inferenz von MoE-Modellen zu adressieren. Durch die Transformation vortrainierter LLMs in spezialisierte MoE-Modelle und die Einführung eines Pre-Gating-Routers ermöglicht Read-ME eine effizientere Inferenz bei gleichzeitig reduzierten Trainingskosten. Die Kombination aus algorithmischen Innovationen und systemnaher Optimierung macht Read-ME zu einer skalierbaren und effizienten Alternative für LLM-Inferenz, insbesondere in Umgebungen mit begrenzten Ressourcen.
Cai, R., Ro, Y., Kim, G.-W., Wang, P., Bejnordi, B. E., Akella, A., & Wang, Z. (2024). Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design. In *38th Conference on Neural Information Processing Systems (NeurIPS 2024)*. https://arxiv.org/abs/2410.19123