Der chinesische Tech-Gigant Tencent hat sein neues, großes Sprachmodell (LLM) namens Hunyuan-Large der Öffentlichkeit vorgestellt. Mit 389 Milliarden Parametern und 52 Milliarden aktiven Parametern handelt es sich um eines der größten Open-Source-Modelle seiner Art. Hunyuan-Large basiert auf der Mixture-of-Experts (MoE)-Architektur und kann eine Kontextlänge von bis zu 256.000 Tokens verarbeiten. Code und Modell sind auf GitHub und Hugging Face verfügbar.
Tencent behauptet, dass Hunyuan-Large in verschiedenen Benchmarks, sowohl in Englisch als auch in Chinesisch, das Llama 3.1-70B-Modell übertrifft und mit dem größeren Llama 3.1-405B-Modell vergleichbar ist. Die Leistungstests umfassten Aufgaben zum Sprachverständnis, Programmierung, Mathematik und logischem Denken. Die MoE-Architektur ermöglicht es Hunyuan-Large, im Gegensatz zu dichten Modellen, nicht alle Parameter für jede Eingabe zu verwenden, was zu einer höheren Effizienz führt.
Tencent hebt mehrere innovative Techniken hervor, die zur Leistung von Hunyuan-Large beitragen. Dazu gehört die Verwendung von 1,5 Billionen Tokens synthetischer Daten, die Teil der insgesamt 7 Billionen Tokens sind, mit denen das Modell trainiert wurde. Zusätzlich wurden verschiedene Strukturverbesserungen implementiert, um den Speicherverbrauch zu reduzieren, die Leistung zu steigern und die Token-Nutzung zu optimieren.
Zu den technischen Innovationen gehören die KV-Cache-Komprimierung mittels Grouped Query Attention (GQA) und Cross-Layer Attention (CLA), die den Speicherbedarf und den Rechenaufwand reduzieren. Darüber hinaus verwendet Hunyuan-Large experten-spezifische Lernraten, um sicherzustellen, dass jedes Teilmodell effektiv lernt und zur Gesamtleistung beiträgt.
Tencent hat die Skalierungsgesetze von MoE-Modellen untersucht, um das Verhältnis zwischen Modellgröße, Trainingsdaten und Leistung besser zu verstehen. Diese Erkenntnisse sollen für die zukünftige Entwicklung und Optimierung leistungsfähigerer LLMs dienen. Die Veröffentlichung von Hunyuan-Large als Open-Source-Modell soll die KI-Community fördern und Innovationen vorantreiben.
Die Veröffentlichung von Hunyuan-Large hat in der KI-Community bereits für Diskussionen gesorgt, insbesondere im Kontext der aktuellen Debatte über den Zugang zu leistungsstarken LLMs und deren Nutzung, beispielsweise für militärische Anwendungen. Es bleibt abzuwarten, wie sich Hunyuan-Large in der Praxis bewähren wird und welchen Einfluss es auf die zukünftige Entwicklung von KI-Modellen haben wird. Mindverse, als deutscher Anbieter von KI-Lösungen, verfolgt diese Entwicklungen aufmerksam und integriert stetig die neuesten Fortschritte in seine Produktpalette, um seinen Kunden innovative und maßgeschneiderte KI-Lösungen zu bieten.
Bibliographie: - https://analyticsindiamag.com/ai-news-updates/tencent-launches-hunyuan-large-outperforms-llama-3-1-70b-405b/ - https://arxiv.org/html/2411.02265v1 - https://github.com/ollama/ollama/issues/7503 - https://www.threads.net/@0_0_d0/post/DB_twFBSqoZ - http://www.techinvest.li/ai/