Jetzt reinschauen – neue Umgebung live

Tencent stellt Hunyuan-Large vor: Ein neues Open-Source-KI-Modell mit innovativen Technologien

Kategorien:
No items found.
Freigegeben:
November 6, 2024

Artikel jetzt als Podcast anhören

Tencent präsentiert Hunyuan-Large: Ein leistungsstarkes Open-Source-KI-Modell

Der chinesische Tech-Gigant Tencent hat sein neues, großes Sprachmodell (LLM) namens Hunyuan-Large der Öffentlichkeit vorgestellt. Mit 389 Milliarden Parametern und 52 Milliarden aktiven Parametern handelt es sich um eines der größten Open-Source-Modelle seiner Art. Hunyuan-Large basiert auf der Mixture-of-Experts (MoE)-Architektur und kann eine Kontextlänge von bis zu 256.000 Tokens verarbeiten. Code und Modell sind auf GitHub und Hugging Face verfügbar.

Leistung im Vergleich zu Llama und DeepSeek-V2

Tencent behauptet, dass Hunyuan-Large in verschiedenen Benchmarks, sowohl in Englisch als auch in Chinesisch, das Llama 3.1-70B-Modell übertrifft und mit dem größeren Llama 3.1-405B-Modell vergleichbar ist. Die Leistungstests umfassten Aufgaben zum Sprachverständnis, Programmierung, Mathematik und logischem Denken. Die MoE-Architektur ermöglicht es Hunyuan-Large, im Gegensatz zu dichten Modellen, nicht alle Parameter für jede Eingabe zu verwenden, was zu einer höheren Effizienz führt.

Innovationen für verbesserte Leistung

Tencent hebt mehrere innovative Techniken hervor, die zur Leistung von Hunyuan-Large beitragen. Dazu gehört die Verwendung von 1,5 Billionen Tokens synthetischer Daten, die Teil der insgesamt 7 Billionen Tokens sind, mit denen das Modell trainiert wurde. Zusätzlich wurden verschiedene Strukturverbesserungen implementiert, um den Speicherverbrauch zu reduzieren, die Leistung zu steigern und die Token-Nutzung zu optimieren.

KV-Cache-Komprimierung und Expertenspezifische Lernraten

Zu den technischen Innovationen gehören die KV-Cache-Komprimierung mittels Grouped Query Attention (GQA) und Cross-Layer Attention (CLA), die den Speicherbedarf und den Rechenaufwand reduzieren. Darüber hinaus verwendet Hunyuan-Large experten-spezifische Lernraten, um sicherzustellen, dass jedes Teilmodell effektiv lernt und zur Gesamtleistung beiträgt.

Skalierungsgesetze und zukünftige Entwicklung

Tencent hat die Skalierungsgesetze von MoE-Modellen untersucht, um das Verhältnis zwischen Modellgröße, Trainingsdaten und Leistung besser zu verstehen. Diese Erkenntnisse sollen für die zukünftige Entwicklung und Optimierung leistungsfähigerer LLMs dienen. Die Veröffentlichung von Hunyuan-Large als Open-Source-Modell soll die KI-Community fördern und Innovationen vorantreiben.

Diskussionen und Ausblick

Die Veröffentlichung von Hunyuan-Large hat in der KI-Community bereits für Diskussionen gesorgt, insbesondere im Kontext der aktuellen Debatte über den Zugang zu leistungsstarken LLMs und deren Nutzung, beispielsweise für militärische Anwendungen. Es bleibt abzuwarten, wie sich Hunyuan-Large in der Praxis bewähren wird und welchen Einfluss es auf die zukünftige Entwicklung von KI-Modellen haben wird. Mindverse, als deutscher Anbieter von KI-Lösungen, verfolgt diese Entwicklungen aufmerksam und integriert stetig die neuesten Fortschritte in seine Produktpalette, um seinen Kunden innovative und maßgeschneiderte KI-Lösungen zu bieten.

Bibliographie: - https://analyticsindiamag.com/ai-news-updates/tencent-launches-hunyuan-large-outperforms-llama-3-1-70b-405b/ - https://arxiv.org/html/2411.02265v1 - https://github.com/ollama/ollama/issues/7503 - https://www.threads.net/@0_0_d0/post/DB_twFBSqoZ - http://www.techinvest.li/ai/
Was bedeutet das?

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.