OLMo 2: Ein neuer Standard für offene Sprachmodelle
Die rasante Entwicklung im Bereich der Künstlichen Intelligenz (KI) hat in den letzten Jahren beeindruckende Fortschritte hervorgebracht. Besonders Sprachmodelle haben durch ihre Fähigkeit, menschenähnlichen Text zu generieren und komplexe Aufgaben zu bewältigen, große Aufmerksamkeit erlangt. Ein wichtiger Trend in diesem Bereich ist die zunehmende Verfügbarkeit von offenen Sprachmodellen, die Forschern und Entwicklern weltweit den Zugang zu leistungsstarken KI-Werkzeugen ermöglichen. Das Allen Institute for AI (Ai2) hat mit OLMo (Open Language Model) eine Modellfamilie entwickelt, die sich diesem Trend verpflichtet und die Messlatte für offene Sprachmodelle höher legt. Mit der Veröffentlichung von OLMo 2 setzt Ai2 diesen Weg fort und präsentiert eine Reihe von Verbesserungen und Innovationen.
OLMo 2: Leistungssteigerung und offene Wissenschaft
OLMo 2 umfasst Modelle mit 7 und 13 Milliarden Parametern, die auf bis zu 5 Billionen Token trainiert wurden. Diese Modelle erreichen oder übertreffen die Leistung vergleichbarer offener Modelle und zeigen sich konkurrenzfähig mit Modellen wie Llama 3.1 in englischen akademischen Benchmarks. Ai2 erreichte diese Verbesserungen durch verschiedene Innovationen, darunter verbesserte Trainingsstabilität, mehrstufige Trainingsansätze und modernste Post-Training-Methoden, die aus dem Tülu 3 Framework abgeleitet wurden. Zu den technischen Neuerungen gehören die Umstellung von nichtparametrischer Layer-Normierung auf RMSNorm und die Implementierung von Rotary Positional Embedding.
Das Training von OLMo 2 erfolgte in zwei Phasen. In der ersten Phase wurde der Datensatz OLMo-Mix-1124 mit ca. 3,9 Billionen Token verwendet, der aus Quellen wie DCLM, Dolma, Starcoder und Proof Pile II stammt. Die zweite Phase nutzte eine sorgfältig zusammengestellte Mischung aus hochwertigen Webdaten und domänenspezifischen Inhalten über den Dolmino-Mix-1124-Datensatz.
Besonders hervorzuheben ist die Variante OLMo 2-Instruct-13B, das leistungsstärkste Modell der Serie. Es übertrifft Modelle wie Qwen 2.5 14B Instruct, Tülu 3 8B und Llama 3.1 8B Instruct in verschiedenen Benchmarks.
Ai2 unterstreicht sein Engagement für Open Science durch die Veröffentlichung umfassender Dokumentation, einschließlich Gewichtungen, Daten, Code, Rezepten, Zwischencheckpoints und instruktionsgesteuerten Modellen. Diese Transparenz ermöglicht die vollständige Überprüfung und Reproduktion der Ergebnisse durch die KI-Community.
Mit der Veröffentlichung von OLMo 2 wird auch ein Evaluierungsframework namens OLMES (Open Language Modeling Evaluation System) eingeführt. OLMES umfasst 20 Benchmarks zur Bewertung von Kernfähigkeiten wie Wissensabruf, Schlussfolgerungen aus dem gesunden Menschenverstand und mathematisches Denken.
Die Bedeutung von OLMo 2 für die KI-Landschaft
OLMo 2 setzt neue Maßstäbe in der Entwicklung von Open-Source-KI und hat das Potenzial, die Innovation in diesem Bereich zu beschleunigen, während Transparenz und Zugänglichkeit gewahrt bleiben. Für Unternehmen wie Mindverse, die sich auf KI-gestützte Content-Erstellung, Chatbots, Voicebots und Wissensdatenbanken spezialisiert haben, eröffnen sich durch offene Modelle wie OLMo 2 neue Möglichkeiten. Die Verfügbarkeit von leistungsstarken, transparenten und frei verfügbaren Sprachmodellen ermöglicht die Entwicklung innovativer Lösungen und fördert die Demokratisierung von KI-Technologien. Durch die Integration von OLMo 2 in die eigene Produktpalette kann Mindverse seinen Kunden modernste KI-Funktionen anbieten und gleichzeitig von der aktiven Open-Source-Community profitieren.
Bibliographie:
- https://www.artificialintelligence-news.com/news/ai2-olmo-2-raising-bar-open-language-models/
- https://allenai.org/blog/olmo2
- https://m.economictimes.com/tech/artificial-intelligence/olmo-2-ai2s-second-open-language-model/articleshow/115731216.cms
- https://techcrunch.com/2024/11/26/ai2-releases-new-language-models-competitive-with-metas-llama/
- https://www.databricks.com/blog/introducing-ai2-olmo
- https://buttondown.com/ainews/archive/ainews-olmo-2-new-sota-fully-open-model/
- https://allenai.org/olmo
- https://offthegridxp.substack.com/p/allen-institute-for-ai-what-is-olmo
- https://github.com/eugeneyan/open-llms
- https://twitter.com/HannaHajishirzi/status/1839049274254045466