Die Entwicklung von Denkmodellen, die komplexe Aufgaben in Mathematik, Programmierung und Naturwissenschaften lösen können, hat in den letzten Jahren rasante Fortschritte gemacht. Viele dieser hochentwickelten Modelle basieren jedoch auf proprietären Datensätzen, deren Zusammensetzung und Struktur der Öffentlichkeit nicht zugänglich sind. Diese mangelnde Transparenz erschwert die Reproduzierbarkeit von Forschungsergebnissen und behindert den Fortschritt in der Community. Das OpenThoughts-Projekt setzt genau hier an und verfolgt das Ziel, Open-Source-Datensätze für das Training von Denkmodellen zu erstellen.
Die ersten Entwicklungsschritte im Rahmen des OpenThoughts-Projekts führten zur Entstehung des Datensatzes OpenThoughts2-1M. Dieser Datensatz bildete die Grundlage für das Training von OpenThinker2-32B, dem ersten auf öffentlich zugänglichen Daten trainierten Modell, das in Standard-Reasoning-Benchmarks wie AIME (American Invitational Mathematics Examination) und LiveCodeBench mit dem DeepSeek-R1-Distill-32B, einem Modell trainiert auf proprietären Daten, mithalten konnte. Dieser Erfolg unterstrich das Potenzial von Open-Source-Daten im Bereich der Denkmodelle.
Das Team hinter OpenThoughts gab sich jedoch nicht mit diesem Ergebnis zufrieden. In über 1000 kontrollierten Experimenten wurde jede Stufe der Datenerstellungspipeline systematisch untersucht und optimiert. Diese intensive Forschungsarbeit mündete in der Entwicklung von OpenThoughts3, einem deutlich verbesserten Datensatz. Durch die Skalierung der Pipeline auf 1,2 Millionen Beispiele und die Verwendung von QwQ-32B als Lehrermodell entstand schließlich OpenThinker3-7B. Dieses Modell erzielte State-of-the-Art-Ergebnisse: 53% bei AIME 2025, 51% bei LiveCodeBench 06/24-01/25 und 54% bei GPQA Diamond.
Die Veröffentlichung der OpenThoughts-Datensätze und der OpenThinker-Modelle stellt einen wichtigen Beitrag zur Demokratisierung der KI-Forschung dar. Durch die Bereitstellung frei zugänglicher Ressourcen ermöglicht das Projekt Forschern weltweit, eigene Experimente durchzuführen, die Ergebnisse zu reproduzieren und auf den bestehenden Entwicklungen aufzubauen. Dies fördert die Transparenz, beschleunigt den Fortschritt und trägt dazu bei, die Grenzen des Möglichen im Bereich des maschinellen Denkens zu erweitern.
Die Philosophie des OpenThoughts-Projekts, hochwertige KI-Ressourcen öffentlich zugänglich zu machen, deckt sich mit dem Ansatz von Mindverse, einem deutschen All-in-One-Tool für KI-gestützte Text- und Bildgenerierung, Forschung und mehr. Mindverse unterstützt Unternehmen bei der Entwicklung maßgeschneiderter KI-Lösungen, darunter Chatbots, Voicebots, KI-Suchmaschinen und Wissenssysteme. Die Verfügbarkeit von Open-Source-Datensätzen wie OpenThoughts bietet Mindverse und seinen Kunden wertvolle Möglichkeiten, innovative KI-Anwendungen zu entwickeln und zu optimieren.
Das OpenThoughts-Projekt zeigt, dass Open-Source-Initiativen eine entscheidende Rolle bei der Weiterentwicklung der KI spielen können. Die Bereitstellung von frei zugänglichen Datensätzen und Modellen ermöglicht es der gesamten Community, von den neuesten Forschungsergebnissen zu profitieren und gemeinsam an der Zukunft der KI zu arbeiten. Es bleibt spannend zu beobachten, welche weiteren Innovationen aus dem OpenThoughts-Projekt und ähnlichen Initiativen hervorgehen werden.
Bibliographie: https://arxiv.org/abs/2506.04178 https://huggingface.co/papers/2506.04178 https://arxiv.org/html/2506.04178v1 https://www.youtube.com/watch?v=YnZbb_SRSgI https://github.com/open-thoughts/open-thoughts https://www.open-thoughts.ai/ https://www.linkedin.com/posts/negin-raoof_openthoughts-data-recipes-for-reasoning-activity-7336438384678096897-hvbL https://huggingface.co/papers/week/2025-W23 http://llmagents-learning.org/slides/OLMo-Tulu-Reasoning-Hanna.pdf https://x.com/etash_guha?lang=de