Die Optimierung von Chain-of-Thought Reasoning (CoT) für komplexe Aufgaben, insbesondere im Bereich des mathematischen Problemlösens, steht im Fokus aktueller Forschung. Ein vielversprechender Ansatz nutzt wertgesteuerte Suchverfahren, um die Effizienz des Schlussfolgerungsprozesses zu verbessern. Ein kürzlich veröffentlichtes Paper stellt eine neue Methode vor, die auf dem Training eines Wertmodells auf Basis von langen Reasoning-Traces basiert und im Vergleich zu bestehenden Verfahren sowohl die Performance steigert als auch den Rechenaufwand reduziert.
Bisherige Ansätze, wie Prozessbelohnungsmodelle (PRMs), benötigen eine feingranulare Definition von einzelnen Schritten im Reasoning-Prozess. Diese Definition gestaltet sich bei komplexen, langkettigen Schlussfolgerungen jedoch oft schwierig. Die neue Methode umgeht diese Herausforderung, indem sie auf die explizite Definition von Einzelschritten verzichtet und stattdessen auf der Ebene einzelner Tokens operiert.
Kern der neuen Methode ist ein Wertmodell, das auf einem umfangreichen Datensatz von 2,5 Millionen Reasoning-Traces trainiert wurde. Dieses 1,5 Milliarden Token umfassende Modell bewertet die Qualität einzelner Denkschritte und ermöglicht so eine gezielte Steuerung des Suchprozesses. Die wertgesteuerte Suche (Value-Guided Search, VGS) nutzt diese Bewertungen, um vielversprechende Lösungswege zu priorisieren und weniger erfolgversprechende Pfade frühzeitig zu verwerfen. Ein abschliessender gewichteter Mehrheitsentscheid (Weighted Majority Vote) kombiniert die Ergebnisse verschiedener Suchläufe und führt zu einer weiteren Verbesserung der Genauigkeit.
Die Wirksamkeit des neuen Ansatzes wurde anhand von vier anspruchsvollen Mathematik-Wettbewerben (AIME 2024 & 2025, HMMT Feb 2024 & 2025) evaluiert. Mit einem Inferenzbudget von 64 Generationen erreichte die VGS in Kombination mit dem DeepSeek-R1-Distill-1.5B Modell eine durchschnittliche Genauigkeit von 45,7% und erreichte damit die Performance des o3-mini-medium Modells. Besonders bemerkenswert ist die deutliche Reduktion des Rechenaufwands im Vergleich zu herkömmlichen Methoden wie Majority Voting, bei gleichbleibender Performance.
Um die weitere Forschung und Entwicklung in diesem Bereich zu fördern, haben die Autoren den Datensatz, das Modell und den Code öffentlich zugänglich gemacht. Dies ermöglicht es anderen Forschern, die Ergebnisse zu reproduzieren, den Ansatz weiterzuentwickeln und für eigene Anwendungen anzupassen.
Die vorgestellte Methode bietet ein vielversprechendes Potenzial für die Verbesserung von Chain-of-Thought Reasoning. Die Kombination aus einem Token-basierten Wertmodell und wertgesteuerter Suche ermöglicht eine effizientere Nutzung von Rechenressourcen und führt zu einer höheren Genauigkeit bei komplexen Schlussfolgerungsprozessen. Die offene Verfügbarkeit des Codes und der Daten unterstreicht den kollaborativen Charakter der Forschung und eröffnet Möglichkeiten für zukünftige Innovationen im Bereich des KI-gestützten Reasonings.
Bibliographie: http://arxiv.org/abs/2505.17373 https://www.arxiv.org/pdf/2505.17373 https://github.com/fscdc/Awesome-Efficient-Reasoning-Models https://www.ibm.com/think/tutorials/llm-chain-of-thought-reasoning-granite https://long-cot.github.io/ https://neurips.cc/virtual/2024/poster/96804 https://aclanthology.org/2023.findings-emnlp.1022.pdf https://www.vktr.com/digital-workplace/chain-of-thought-cot-prompting-guide-for-business-users/ https://github.com/DevoAllen/Awesome-Reasoning-Economy-Papers https://openreview.net/pdf?id=4Zt7S0B0Jp