KI für Ihr Unternehmen – Jetzt Demo buchen

Neuer Ansatz zur Optimierung von Soft-Thinking in Large Language Models

Kategorien:
No items found.
Freigegeben:
November 11, 2025

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Die SofT-GRPO-Methode ermöglicht es Large Language Models (LLMs), das "Soft-Thinking"-Paradigma effektiver zu nutzen.
    • Im Gegensatz zu traditionellen Reinforcement Learning (RL)-Methoden für diskrete Token, die an Grenzen stossen, integriert SofT-GRPO Gumbel-Rauschen und Gumbel-Softmax-Techniken.
    • Dies erlaubt eine Reparametrisierung des Policy Gradients und überwindet die Herausforderungen bei der Injektion von Stochastizität in Soft-Thinking-Tokens.
    • Experimente zeigen eine signifikante Leistungssteigerung bei "Pass@32" und eine leichte Verbesserung bei "Pass@1" im Vergleich zu diskreten GRPO-Methoden.
    • Die Forschung unterstreicht das Potenzial von Soft-Thinking für die Verbesserung der Argumentationsfähigkeiten von LLMs, insbesondere bei komplexen Aufgaben.

    Die Entwicklung von Large Language Models (LLMs) hat in den letzten Jahren beeindruckende Fortschritte gemacht, insbesondere im Bereich der Argumentationsfähigkeiten. Ein zentraler Aspekt dieser Entwicklung ist die Optimierung von Lernalgorithmen, um die Modelle effizienter und leistungsfähiger zu gestalten. Eine aktuelle Forschungsarbeit mit dem Titel "SofT-GRPO: Surpassing Discrete-Token LLM Reinforcement Learning via Gumbel-Reparameterized Soft-Thinking Policy Optimization" beleuchtet einen neuartigen Ansatz, der das sogenannte "Soft-Thinking"-Paradigma in LLMs durch Reinforcement Learning (RL) signifikant verbessern soll. Dieser Artikel analysiert die Kerninnovationen und Implikationen dieser Methode für die B2B-Anwendung von KI-Technologien.

    Herausforderungen im Reinforcement Learning für LLMs

    Traditionelles Reinforcement Learning (RL) für LLMs konzentriert sich oft auf diskrete Token und Methoden wie die Group Relative Policy Optimization (GRPO). Diese Ansätze haben sich als wirksam erwiesen, um die Argumentationsmuster von LLMs zu verstärken. Jedoch stossen sie an ihre Grenzen, wenn es darum geht, das "Soft-Thinking"-Paradigma effektiv zu integrieren. Soft-Thinking, eine Methode, die eine flexiblere und nuanciertere Argumentation ermöglicht als die konventionelle diskrete Chain-of-Thought (CoT)-Argumentation, hat in bestimmten Szenarien eine überlegene Leistung gezeigt. Die Schwierigkeit bestand bisher darin, Stochastizität in Soft-Thinking-Tokens zu injizieren und die entsprechenden Soft-Thinking-Policies zu aktualisieren, was dazu führte, dass frühere Versuche, Soft-Thinking mit GRPO zu kombinieren, oft hinter diskreten GRPO-Ansätzen zurückblieben.

    Ein weiteres Problem bei herkömmlichen RL-Ansätzen, insbesondere bei on-policy-Methoden wie PPO, ist die mangelnde Effizienz beim Lernen aus früheren Erfahrungen. Diese Methoden können nicht effektiv aus beliebigen Sequenzen lernen, die beispielsweise früher im Training, von menschlichen Experten oder durch andere Explorationsmethoden erzeugt wurden. Dies führt zu einer geringen Stichprobeneffizienz, Schwierigkeiten bei der Exploration und einem potenziellen Verlust an Diversität in den Modellantworten. Asynchrone PPO-Implementierungen erfordern zudem häufige und kostspielige Modelltransfers und nutzen Wertmodelle, die viel Speicherplatz beanspruchen. Diese Einschränkungen verdeutlichen den Bedarf an off-policy-fähigen RL-Methoden, die eine breitere Palette von Datenquellen nutzen können, um die Lernprozesse von LLMs zu optimieren.

    SofT-GRPO: Ein neuer Weg zur Optimierung des Soft-Thinking

    Die Forscher hinter SofT-GRPO haben einen Algorithmus entwickelt, der diese Herausforderungen adressiert. Die Kerninnovationen von SofT-GRPO umfassen:

    • Injektion von Gumbel-Rauschen: Um die Stochastizität in Soft-Thinking-Tokens zu ermöglichen, wird Gumbel-Rauschen in die Logits der Modellvorhersagen eingeführt. Dies erlaubt eine weichere Auswahl von Tokens, die nicht auf einem starren, diskreten Entscheidungsprozess basiert.
    • Einsatz der Gumbel-Softmax-Technik: Diese Technik wird verwendet, um sicherzustellen, dass die generierten Soft-Thinking-Tokens innerhalb des vorab trainierten Embedding-Raums bleiben. Dies verhindert, dass das Modell in unbekannte oder inkohärente Token-Repräsentationen abdriftet, was die Stabilität des Lernprozesses gewährleistet.
    • Reparametrisierung des Policy Gradients: Durch die Anwendung des Reparametrisierungstricks im Policy Gradient können Gradienten effizienter durch den stochastischen Prozess geleitet werden. Dies ist entscheidend, um Soft-Thinking-Policies effektiv zu aktualisieren und zu optimieren.

    Dieser methodische Ansatz ermöglicht es SofT-GRPO, das Potenzial von Soft-Thinking vollständig auszuschöpfen, indem es die Grenzen diskreter Token-Entscheidungen überwindet und eine kontinuierlichere und flexiblere Argumentation fördert.

    Empirische Ergebnisse und deren Bedeutung

    Die Wirksamkeit von SofT-GRPO wurde anhand von Experimenten mit Basis-LLMs getestet, deren Parametergrössen von 1,5 Milliarden bis 7 Milliarden reichten. Die Ergebnisse zeigten, dass SofT-GRPO in der Lage ist, die Leistung von Soft-Thinking-LLMs im Vergleich zu ihren diskreten GRPO-Pendants zu übertreffen:

    • Eine leichte Verbesserung bei Pass@1 (durchschnittlich +0,13 % Genauigkeit).
    • Eine substanzielle Steigerung bei Pass@32 (durchschnittlich +2,19 % Genauigkeit).

    Diese Ergebnisse sind besonders relevant, da Pass@32 die Fähigkeit eines Modells misst, eine korrekte Lösung innerhalb von 32 Versuchen zu finden, was oft auf eine robustere und vielfältigere Lösungsfindung hindeutet. Die signifikante Verbesserung bei Pass@32 deutet darauf hin, dass SofT-GRPO LLMs dazu befähigt, in komplexeren Szenarien eine breitere Palette von korrekten Lösungen zu explorieren und zu finden, was für anspruchsvolle Problemstellungen von grossem Wert ist.

    Implikationen für B2B-Anwendungen

    Für Unternehmen, die auf fortschrittliche KI-Modelle angewiesen sind, bieten die Erkenntnisse aus der SofT-GRPO-Forschung wichtige Implikationen:

    • Verbesserte Argumentationsfähigkeiten: LLMs, die mit SofT-GRPO optimiert wurden, könnten in der Lage sein, komplexere und nuanciertere Argumentationsaufgaben zu lösen. Dies ist entscheidend für Anwendungen wie fortgeschrittene Datenanalyse, strategische Entscheidungsfindung und kreative Problemlösung in Bereichen wie Finanzwesen, Ingenieurwesen oder Forschung und Entwicklung.
    • Robustheit und Diversität der Lösungen: Die Fähigkeit, eine höhere Genauigkeit bei "Pass@32" zu erzielen, bedeutet, dass die Modelle nicht nur eine einzige "beste" Antwort finden, sondern eine Reihe von plausiblen und korrekten Lösungen generieren können. Dies erhöht die Robustheit der Anwendungen und bietet Nutzern vielfältigere Optionen, was in Szenarien mit hohen Anforderungen an Fehlerresistenz und Kreativität von Vorteil ist.
    • Effizienzsteigerung bei der Modellentwicklung: Durch die effektivere Nutzung des Soft-Thinking-Paradigmas kann die Entwicklung und Feinabstimmung von LLMs effizienter gestaltet werden. Dies reduziert den Zeit- und Ressourcenaufwand für die Bereitstellung massgeschneiderter KI-Lösungen.
    • Potenzial für neue Anwendungsfelder: Die verbesserte Fähigkeit zur Handhabung stochastischer Prozesse und zur flexiblen Token-Generierung eröffnet neue Möglichkeiten für KI-Anwendungen, die bisher an den starren Grenzen diskreter Modelle scheiterten. Beispiele könnten die Generierung von kreativen Texten, komplexen Code-Strukturen oder die Simulation von Szenarien mit hoher Unsicherheit sein.

    Die Arbeit an SofT-GRPO stellt einen wichtigen Schritt dar, um die Leistungsfähigkeit von LLMs durch die Integration fortschrittlicher Reinforcement Learning-Techniken weiter zu steigern. Die Fähigkeit, das Soft-Thinking-Paradigma effizient zu nutzen, könnte die nächste Generation von KI-Anwendungen in der Geschäftswelt massgeblich prägen.

    Die kontinuierliche Forschung in diesem Bereich wird entscheidend sein, um die vollen Vorteile solcher Innovationen für die Praxis nutzbar zu machen. Mindverse verfolgt diese Entwicklungen aufmerksam, um seinen B2B-Kunden stets die leistungsfähigsten und relevantesten KI-Lösungen anbieten zu können, die auf den neuesten wissenschaftlichen Erkenntnissen basieren.

    Bibliography: - Zheng, Z., & Lee, W. S. (2025). SofT-GRPO: Surpassing Discrete-Token LLM Reinforcement Learning via Gumbel-Reparameterized Soft-Thinking Policy Optimization. arXiv preprint arXiv:2511.06411. - Cohen, T., Zhang, D. W., Zheng, K., Tang, Y., Munos, R., & Synnaeve, G. (2025). Soft Policy Optimization: Online Off-Policy RL for Sequence Models. arXiv preprint arXiv:2503.05453. - ICLR 2026 Conference Submission. Token-Regulated Group Relative Policy Optimization for Stable Reinforcement Learning in Large Language Models. - Chu, X., Huang, H., Zhang, X., Wei, F., & Wang, Y. (2025). GPG: A Simple and Strong Reinforcement Learning Baseline for Model Reasoning. arXiv preprint arXiv:2504.02546. - Mroueh, Y. (2025). Reinforcement Learning with Verifiable Rewards: GRPO’s Effective Loss, Dynamics, and Success Amplification. arXiv preprint arXiv:2503.06639.

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen