Qwen2.5: Fortschritte bei Open-Source KI-Modellen von Alibaba Cloud

Kategorien:

No items found.

Freigegeben:

December 20, 2024

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Qwen2.5: Neue Generation von Open-Source KI-Modellen von Alibaba Cloud

Alibaba Cloud hat mit Qwen2.5 die neueste Version seiner großen Sprachmodelle (LLMs) vorgestellt. Diese Erweiterung der Qwen-Familie umfasst neben den allgemeinen Sprachmodellen Qwen2.5 auch spezialisierte Modelle für Programmierung (Qwen2.5-Coder) und Mathematik (Qwen2.5-Math). Die Modelle sind in verschiedenen Größen verfügbar, von 0.5 Milliarden bis hin zu 72 Milliarden Parametern.

Die Qwen2.5-Modelle wurden mit einem umfangreichen Datensatz von bis zu 18 Billionen Token trainiert. Im Vergleich zur Vorgängerversion Qwen2 verfügen sie über ein erweitertes Wissen, verbesserte Programmierfähigkeiten und mathematische Fähigkeiten. Zudem zeigen sie Fortschritte im Befolgen von Anweisungen, Generieren langer Texte (bis zu 8.000 Token), Verstehen strukturierter Daten und Generieren strukturierter Ausgaben, insbesondere im JSON-Format. Die Robustheit gegenüber verschiedenen Systemprompts wurde ebenfalls verbessert, was die Implementierung von Rollenspielen und die Festlegung von Bedingungen für Chatbots erleichtert. Wie Qwen2 unterstützen die Qwen2.5-Modelle bis zu 128.000 Token und können bis zu 8.000 Token generieren. Die mehrsprachige Unterstützung umfasst über 29 Sprachen, darunter Deutsch, Englisch, Chinesisch, Spanisch, Französisch, Russisch, Japanisch, Koreanisch und viele weitere.

Spezialisierte Modelle für Coding und Mathematik

Qwen2.5-Coder wurde speziell für Programmieranwendungen entwickelt und mit 5,5 Billionen Token an Code-bezogenen Daten trainiert. Das Modell soll selbst in kleineren Versionen eine wettbewerbsfähige Leistung im Vergleich zu größeren Sprachmodellen bei der Code-Evaluierung erzielen. Qwen2.5-Math unterstützt sowohl Chinesisch als auch Englisch und integriert verschiedene Argumentationsmethoden wie Chain-of-Thought (CoT), Program-of-Thought (PoT) und Tool-Integrated Reasoning (TIR).

Leistungsvergleich und Benchmarks

Alibaba Cloud hat Qwen2.5-72B, das größte Open-Source-Modell der Reihe, mit anderen führenden Open-Source-Modellen wie Llama-3.1-70B und Mistral-Large-V2 verglichen. Die Ergebnisse zeigen, dass Qwen2.5 in verschiedenen Benchmarks, sowohl in Bezug auf die Modellfähigkeiten als auch auf menschliche Präferenzen, konkurrenzfähig ist. Auch das Basis-Sprachmodell Qwen2.5-72B erreicht laut Alibaba Cloud Spitzenleistungen, selbst im Vergleich zu größeren Modellen wie Llama-3-405B.

Die Modelle Qwen2.5-14B und Qwen2.5-32B wurden ebenfalls wieder eingeführt und sollen Baseline-Modelle vergleichbarer oder größerer Größe in verschiedenen Aufgaben übertreffen. Das API-basierte Modell Qwen-Turbo bietet laut Alibaba Cloud eine hohe Leistung im Vergleich zu den beiden Open-Source-Modellen und gleichzeitig einen kostengünstigen und schnellen Service.

Zugänglichkeit und Entwicklung

Die meisten Modelle der Qwen2.5-Reihe sind unter der Apache-2.0-Lizenz auf Plattformen wie Hugging Face und ModelScope frei verfügbar. Zusätzliche Materialien, einschließlich Beispielcode, sind auf GitHub zu finden. Diese Plattformen bieten auch Ressourcen für Quantisierung, Feinabstimmung und Bereitstellung, um eine breite Palette von Anwendungen und Forschungsaktivitäten zu unterstützen. Die Integration in bestehende Frameworks wie Hugging Face Transformers und vLLM wird durch bereitgestellte Codebeispiele erleichtert.

Mit der Veröffentlichung von Qwen2.5 unterstreicht Alibaba Cloud sein Engagement für Open-Source-KI und bietet Entwicklern und Forschern leistungsstarke Werkzeuge für verschiedene Anwendungsbereiche.

Bibliographie: - Yang, A., et al. (2024). Qwen2 Technical Report. arXiv preprint arXiv:2407.10671v4. - Alibaba Cloud Community. (2024, November 22). Qwen2.5: A Party of Foundation Models! - Hugging Face. Qwen2.5 Model Card.