Anychat erweitert Unterstützung für Qwen-Modelle und beschleunigt Inferenz durch spezialisierte Chips
Die Plattform Anychat hat ihre Unterstützung für die Qwen-Modellreihe erweitert und bietet nun Zugriff auf Qwen2.5 72B und Qwen 2.5 Coder 32B. Diese Integration ermöglicht Entwicklern, die Leistungsfähigkeit dieser großen Sprachmodelle in Kombination mit der Anychat-Plattform zu nutzen. Ein besonderes Merkmal ist die signifikante Beschleunigung der Inferenzgeschwindigkeit durch den Einsatz spezialisierter Chips von SambaNovaAI.
Durch die Integration von SambaNovaAI’s Hardware erreicht Qwen2.5 72B eine Inferenzgeschwindigkeit von etwa 225 Tokens pro Sekunde. Das spezialisierte Coder-Modell Qwen 2.5 Coder 32B, das für Coding-Aufgaben optimiert ist, erreicht sogar eine Geschwindigkeit von 566 Tokens pro Sekunde. Diese erhebliche Leistungssteigerung im Vergleich zu herkömmlichen GPU-Lösungen ermöglicht schnellere Reaktionszeiten und effizientere Verarbeitung großer Datenmengen.
Anychat unterstützt bereits verschiedene Ein- und Ausgabemethoden, darunter Text, Bilder und Sprache. Die Plattform strebt eine umfassende Integration verschiedener KI-Modelle an und ermutigt Entwickler, zur Weiterentwicklung beizutragen. Zwei vorgeschlagene Verbesserungsrichtungen sind die Integration von "Artifacts"-Fähigkeiten der Modelle für umfassendere Ausgaben und die Einbindung weiterer Chip-beschleunigter Lösungen, wie beispielsweise von Cerebras Systems, um direkte Leistungsvergleiche innerhalb von Anychat zu ermöglichen.
Die Qwen-Modelle selbst zeichnen sich durch ihre Vielseitigkeit und Leistungsfähigkeit aus. Qwen2.5 ist in verschiedenen Größen von 0.5B bis 72B Parametern verfügbar und bietet sowohl Basis- als auch Instruct-Varianten. Die Modelle wurden mit einem umfangreichen Datensatz trainiert, der bis zu 18T Tokens umfasst. Sie zeigen Verbesserungen in Bereichen wie der Befolgung von Anweisungen, der Generierung langer Texte (bis zu 8K Tokens), dem Verständnis strukturierter Daten und der Generierung strukturierter Ausgaben im JSON-Format. Die Modelle unterstützen eine Kontextlänge von bis zu 128K Tokens und sind in der Lage, Texte in mehreren Sprachen zu verarbeiten.
Die Partnerschaft zwischen Anychat und SambaNovaAI unterstreicht den Trend zur Spezialisierung von Hardware für KI-Anwendungen. Die erzielten Geschwindigkeitssteigerungen sind besonders relevant für Anwendungsfälle, die Echtzeit-Interaktion erfordern, wie z.B. bei der Entwicklung von KI-Agenten und Chatbots. Die Verfügbarkeit leistungsstarker Open-Source-Modelle wie Qwen2.5 in Kombination mit optimierter Hardware eröffnet Entwicklern neue Möglichkeiten für innovative KI-Lösungen.
Bibliographie
https://www.tufm-group.com/news/85533.html
http://oj.oj.w4ucp.com/news/403b6399533.html