Das Allen Institute for Artificial Intelligence (Ai2) hat mit OLMo 2 32B ein neues großes Sprachmodell (LLM) veröffentlicht, das einen bedeutenden Schritt in Richtung transparenter und zugänglicher Künstlicher Intelligenz darstellt. Im Gegensatz zu vielen kommerziellen Modellen, bei denen Code, Trainingsdaten und technische Details oft unter Verschluss gehalten werden, setzt OLMo 2 32B auf vollständige Offenheit. Das Modell, seine Trainingsdaten und der Code sind öffentlich zugänglich, was Forschern und Entwicklern weltweit erlaubt, die Technologie zu untersuchen, zu modifizieren und für eigene Projekte zu nutzen.
OLMo 2 32B übertrifft in Benchmarks die Leistung von Modellen wie GPT-3.5-Turbo und GPT-4o mini. Bemerkenswert ist dabei die Effizienz des Modells: Der Trainingsaufwand beträgt nur ein Drittel im Vergleich zu ähnlich großen Modellen wie Qwen2.5-32B. Diese Ressourceneffizienz eröffnet auch kleineren Forschungseinrichtungen und unabhängigen Entwicklern die Möglichkeit, mit großen Sprachmodellen zu experimentieren und Innovationen voranzutreiben.
Der Trainingsprozess von OLMo 2 32B gliedert sich in drei Phasen. Zunächst erlernte das Modell grundlegende Sprachmuster aus einem riesigen Datensatz von 3,9 Billionen Token. In der zweiten Phase wurde das Modell mit hochwertigen Dokumenten und wissenschaftlichen Texten trainiert, um sein Verständnis für komplexere Zusammenhänge zu vertiefen. Abschließend wurde die Fähigkeit zum Befolgen von Anweisungen mithilfe des Tulu 3.1 Frameworks optimiert. Dieses Framework kombiniert überwachtes Lernen und Reinforcement Learning.
Für die Koordination des komplexen Trainingsprozesses entwickelte das Ai2-Team die Softwareplattform OLMo-core. Diese Plattform ermöglicht die effiziente Zusammenarbeit vieler Rechner und sichert den Trainingsfortschritt. Das Training selbst fand auf Augusta AI statt, einem Supercomputer-Netzwerk aus 160 mit H100 GPUs ausgestatteten Maschinen. Dabei wurden Verarbeitungsgeschwindigkeiten von über 1.800 Token pro Sekunde und GPU erreicht.
Während viele KI-Projekte, wie beispielsweise Metas Llama, sich als Open Source bezeichnen, erfüllt OLMo 2 alle drei wesentlichen Kriterien: öffentlicher Modellcode, öffentliche Gewichte und öffentliche Trainingsdaten. Das Team hat sämtliche Komponenten, einschließlich des Dolmino-Trainingsdatensatzes, veröffentlicht, was eine vollständige Reproduzierbarkeit und Analyse des Trainingsprozesses ermöglicht.
Das Ai2-Team plant, die logischen Fähigkeiten des Modells weiter zu verbessern und die Verarbeitung längerer Texte zu optimieren. Nutzer können OLMo 2 32B über den Ai2 Chatbot Playground testen. Die Veröffentlichung von OLMo 2 32B ist ein wichtiger Meilenstein für die Open-Source-KI-Community und trägt dazu bei, die Entwicklung leistungsstarker und transparenter Sprachmodelle voranzutreiben.
Bibliographie: https://the-decoder.com/olmo-2-32b-sets-a-new-standard-for-true-open-source-llms-with-public-code-weights-and-data/ https://allenai.org/blog/olmo2-32B https://programming.dev/post/26987616 https://twitter.com/theaitechsuite/status/1900861866987139107 https://www.reddit.com/r/LocalLLaMA/comments/1jaj6gc/ai2_releases_olmo_32b_truly_open_source/ https://www.interconnects.ai/p/gemma-3-olmo-2-32b-and-the-growing https://medium.com/@andreda-mind/unveiling-olmo-2-32b-the-first-fully-open-model-to-outperform-gpt-3-5-and-gpt-4o-mini-838b1e74bd4f https://www.turtlesai.com/en/pages-2499/olmo-2-32b-is-a-fully-open-llm-outperforming https://simonwillison.net/tags/training-data/ https://github.com/eugeneyan/open-llms