KI für Ihr Unternehmen – Jetzt Demo buchen

Wertgesteuerte Suche zur Optimierung des Chain-of-Thought Reasoning

Kategorien:
No items found.
Freigegeben:
May 27, 2025

Artikel jetzt als Podcast anhören

Inhaltsverzeichnis

    Effizientes Schlussfolgern durch wertgesteuerte Suche: Ein neuer Ansatz für Chain-of-Thought Reasoning

    Die Optimierung von Chain-of-Thought Reasoning (CoT) für komplexe Aufgaben, insbesondere im Bereich des mathematischen Problemlösens, steht im Fokus aktueller Forschung. Ein vielversprechender Ansatz nutzt wertgesteuerte Suchverfahren, um die Effizienz des Schlussfolgerungsprozesses zu verbessern. Ein kürzlich veröffentlichtes Paper stellt eine neue Methode vor, die auf dem Training eines Wertmodells auf Basis von langen Reasoning-Traces basiert und im Vergleich zu bestehenden Verfahren sowohl die Performance steigert als auch den Rechenaufwand reduziert.

    Herausforderungen herkömmlicher Methoden

    Bisherige Ansätze, wie Prozessbelohnungsmodelle (PRMs), benötigen eine feingranulare Definition von einzelnen Schritten im Reasoning-Prozess. Diese Definition gestaltet sich bei komplexen, langkettigen Schlussfolgerungen jedoch oft schwierig. Die neue Methode umgeht diese Herausforderung, indem sie auf die explizite Definition von Einzelschritten verzichtet und stattdessen auf der Ebene einzelner Tokens operiert.

    Der neue Ansatz: Wertgesteuerte Suche mit Token-basiertem Wertmodell

    Kern der neuen Methode ist ein Wertmodell, das auf einem umfangreichen Datensatz von 2,5 Millionen Reasoning-Traces trainiert wurde. Dieses 1,5 Milliarden Token umfassende Modell bewertet die Qualität einzelner Denkschritte und ermöglicht so eine gezielte Steuerung des Suchprozesses. Die wertgesteuerte Suche (Value-Guided Search, VGS) nutzt diese Bewertungen, um vielversprechende Lösungswege zu priorisieren und weniger erfolgversprechende Pfade frühzeitig zu verwerfen. Ein abschliessender gewichteter Mehrheitsentscheid (Weighted Majority Vote) kombiniert die Ergebnisse verschiedener Suchläufe und führt zu einer weiteren Verbesserung der Genauigkeit.

    Überzeugende Ergebnisse in Benchmark-Tests

    Die Wirksamkeit des neuen Ansatzes wurde anhand von vier anspruchsvollen Mathematik-Wettbewerben (AIME 2024 & 2025, HMMT Feb 2024 & 2025) evaluiert. Mit einem Inferenzbudget von 64 Generationen erreichte die VGS in Kombination mit dem DeepSeek-R1-Distill-1.5B Modell eine durchschnittliche Genauigkeit von 45,7% und erreichte damit die Performance des o3-mini-medium Modells. Besonders bemerkenswert ist die deutliche Reduktion des Rechenaufwands im Vergleich zu herkömmlichen Methoden wie Majority Voting, bei gleichbleibender Performance.

    Offener Zugang für die Forschungsgemeinschaft

    Um die weitere Forschung und Entwicklung in diesem Bereich zu fördern, haben die Autoren den Datensatz, das Modell und den Code öffentlich zugänglich gemacht. Dies ermöglicht es anderen Forschern, die Ergebnisse zu reproduzieren, den Ansatz weiterzuentwickeln und für eigene Anwendungen anzupassen.

    Ausblick und Potenzial

    Die vorgestellte Methode bietet ein vielversprechendes Potenzial für die Verbesserung von Chain-of-Thought Reasoning. Die Kombination aus einem Token-basierten Wertmodell und wertgesteuerter Suche ermöglicht eine effizientere Nutzung von Rechenressourcen und führt zu einer höheren Genauigkeit bei komplexen Schlussfolgerungsprozessen. Die offene Verfügbarkeit des Codes und der Daten unterstreicht den kollaborativen Charakter der Forschung und eröffnet Möglichkeiten für zukünftige Innovationen im Bereich des KI-gestützten Reasonings.

    Bibliographie: http://arxiv.org/abs/2505.17373 https://www.arxiv.org/pdf/2505.17373 https://github.com/fscdc/Awesome-Efficient-Reasoning-Models https://www.ibm.com/think/tutorials/llm-chain-of-thought-reasoning-granite https://long-cot.github.io/ https://neurips.cc/virtual/2024/poster/96804 https://aclanthology.org/2023.findings-emnlp.1022.pdf https://www.vktr.com/digital-workplace/chain-of-thought-cot-prompting-guide-for-business-users/ https://github.com/DevoAllen/Awesome-Reasoning-Economy-Papers https://openreview.net/pdf?id=4Zt7S0B0Jp
    Mindverse vs ChatGPT Plus Widget

    Warum Mindverse Studio?

    Entdecken Sie die Vorteile gegenüber ChatGPT Plus

    Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.

    🚀 Mindverse Studio

    Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.

    ChatGPT Plus

    ❌ Kein strukturierter Dokumentenvergleich

    ❌ Keine Bearbeitung im Dokumentkontext

    ❌ Keine Integration von Unternehmenswissen

    VS

    Mindverse Studio

    ✅ Gezielter Dokumentenvergleich mit Custom-Prompts

    ✅ Kontextbewusste Textbearbeitung im Editor

    ✅ Wissensbasierte Analyse & Zusammenfassungen

    📚 Nutzen Sie Ihr internes Wissen – intelligent und sicher

    Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.

    ChatGPT Plus

    ❌ Nur ein Modellanbieter (OpenAI)

    ❌ Keine Modellauswahl pro Use Case

    ❌ Keine zentrale Modellsteuerung für Teams

    VS

    Mindverse Studio

    ✅ Zugriff auf über 50 verschiedene KI-Modelle

    ✅ Modellauswahl pro Prompt oder Assistent

    ✅ Zentrale Steuerung auf Organisationsebene

    🧠 Zugang zu allen führenden KI-Modellen – flexibel & anpassbar

    OpenAI GPT-4: für kreative Texte und allgemeine Anwendungen
    Anthropic Claude: stark in Analyse, Struktur und komplexem Reasoning
    Google Gemini: ideal für multimodale Aufgaben (Text, Bild, Code)
    Eigene Engines: individuell trainiert auf Ihre Daten und Prozesse

    ChatGPT Plus

    ❌ Keine echte Teamkollaboration

    ❌ Keine Rechte- oder Rollenverteilung

    ❌ Keine zentrale Steuerung oder Nachvollziehbarkeit

    VS

    Mindverse Studio

    ✅ Teamübergreifende Bearbeitung in Echtzeit

    ✅ Granulare Rechte- und Freigabeverwaltung

    ✅ Zentrale Steuerung & Transparenz auf Organisationsebene

    👥 Kollaborative KI für Ihr gesamtes Unternehmen

    Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.

    Bereit für den nächsten Schritt?

    Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.

    🎯 Kostenlose Demo buchen

    Wie können wir Ihnen heute helfen?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen