Wertgesteuerte Suche zur Optimierung des Chain-of-Thought Reasoning

Kategorien:

No items found.

Freigegeben:

May 27, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Effizientes Schlussfolgern durch wertgesteuerte Suche: Ein neuer Ansatz für Chain-of-Thought Reasoning

Die Optimierung von Chain-of-Thought Reasoning (CoT) für komplexe Aufgaben, insbesondere im Bereich des mathematischen Problemlösens, steht im Fokus aktueller Forschung. Ein vielversprechender Ansatz nutzt wertgesteuerte Suchverfahren, um die Effizienz des Schlussfolgerungsprozesses zu verbessern. Ein kürzlich veröffentlichtes Paper stellt eine neue Methode vor, die auf dem Training eines Wertmodells auf Basis von langen Reasoning-Traces basiert und im Vergleich zu bestehenden Verfahren sowohl die Performance steigert als auch den Rechenaufwand reduziert.

Herausforderungen herkömmlicher Methoden

Bisherige Ansätze, wie Prozessbelohnungsmodelle (PRMs), benötigen eine feingranulare Definition von einzelnen Schritten im Reasoning-Prozess. Diese Definition gestaltet sich bei komplexen, langkettigen Schlussfolgerungen jedoch oft schwierig. Die neue Methode umgeht diese Herausforderung, indem sie auf die explizite Definition von Einzelschritten verzichtet und stattdessen auf der Ebene einzelner Tokens operiert.

Der neue Ansatz: Wertgesteuerte Suche mit Token-basiertem Wertmodell

Kern der neuen Methode ist ein Wertmodell, das auf einem umfangreichen Datensatz von 2,5 Millionen Reasoning-Traces trainiert wurde. Dieses 1,5 Milliarden Token umfassende Modell bewertet die Qualität einzelner Denkschritte und ermöglicht so eine gezielte Steuerung des Suchprozesses. Die wertgesteuerte Suche (Value-Guided Search, VGS) nutzt diese Bewertungen, um vielversprechende Lösungswege zu priorisieren und weniger erfolgversprechende Pfade frühzeitig zu verwerfen. Ein abschliessender gewichteter Mehrheitsentscheid (Weighted Majority Vote) kombiniert die Ergebnisse verschiedener Suchläufe und führt zu einer weiteren Verbesserung der Genauigkeit.

Überzeugende Ergebnisse in Benchmark-Tests

Die Wirksamkeit des neuen Ansatzes wurde anhand von vier anspruchsvollen Mathematik-Wettbewerben (AIME 2024 & 2025, HMMT Feb 2024 & 2025) evaluiert. Mit einem Inferenzbudget von 64 Generationen erreichte die VGS in Kombination mit dem DeepSeek-R1-Distill-1.5B Modell eine durchschnittliche Genauigkeit von 45,7% und erreichte damit die Performance des o3-mini-medium Modells. Besonders bemerkenswert ist die deutliche Reduktion des Rechenaufwands im Vergleich zu herkömmlichen Methoden wie Majority Voting, bei gleichbleibender Performance.

Offener Zugang für die Forschungsgemeinschaft

Um die weitere Forschung und Entwicklung in diesem Bereich zu fördern, haben die Autoren den Datensatz, das Modell und den Code öffentlich zugänglich gemacht. Dies ermöglicht es anderen Forschern, die Ergebnisse zu reproduzieren, den Ansatz weiterzuentwickeln und für eigene Anwendungen anzupassen.

Ausblick und Potenzial

Die vorgestellte Methode bietet ein vielversprechendes Potenzial für die Verbesserung von Chain-of-Thought Reasoning. Die Kombination aus einem Token-basierten Wertmodell und wertgesteuerter Suche ermöglicht eine effizientere Nutzung von Rechenressourcen und führt zu einer höheren Genauigkeit bei komplexen Schlussfolgerungsprozessen. Die offene Verfügbarkeit des Codes und der Daten unterstreicht den kollaborativen Charakter der Forschung und eröffnet Möglichkeiten für zukünftige Innovationen im Bereich des KI-gestützten Reasonings.

Bibliographie: http://arxiv.org/abs/2505.17373 https://www.arxiv.org/pdf/2505.17373 https://github.com/fscdc/Awesome-Efficient-Reasoning-Models https://www.ibm.com/think/tutorials/llm-chain-of-thought-reasoning-granite https://long-cot.github.io/ https://neurips.cc/virtual/2024/poster/96804 https://aclanthology.org/2023.findings-emnlp.1022.pdf https://www.vktr.com/digital-workplace/chain-of-thought-cot-prompting-guide-for-business-users/ https://github.com/DevoAllen/Awesome-Reasoning-Economy-Papers https://openreview.net/pdf?id=4Zt7S0B0Jp