Skalierung von Reinforcement Learning für die Entwicklung von Large Language Models

Kategorien:

No items found.

Freigegeben:

March 11, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Der schnelle Überblick

Unüberwachtes RLVR (Reinforcement Learning mit überprüfbaren Belohnungen) zeigt vielversprechende Ansätze zur Skalierung des LLM-Trainings.
Intrinsische Belohnungssignale führen zu einer anfänglichen Verbesserung, gefolgt von einem Leistungsabfall, der durch die initiale Modellverteilung bestimmt wird.
Externe Belohnungsmethoden, die auf rechnerischen Asymmetrien basieren, könnten diese Grenzen überwinden.
Ein systematisches Framework zur Analyse der Skalierbarkeit von RL für LLMs wurde entwickelt, das sigmoide Kurven zur Vorhersage der Leistung nutzt.
"ScaleRL", eine neue Rezeptur für RL-Training, demonstriert vorhersagbare Skalierung und übertrifft bestehende Methoden in asymptotischer Leistung und Recheneffizienz.
RLVR tendiert dazu, die Lösungsabdeckung des Basismodells zu bewahren, anstatt neue Fähigkeiten zu entwickeln, was zu einem Präzisions-Diversitäts-Kompromiss führt.

Sehr geehrte Leserinnen und Leser,

die Entwicklung von Large Language Models (LLMs) hat in den letzten Jahren enorme Fortschritte gemacht. Ein zentraler Aspekt dieser Entwicklung ist die Effektivität des Trainings, insbesondere im Hinblick auf Skalierbarkeit und die Fähigkeit, über die Grenzen menschlicher Supervision hinaus zu lernen. Eine aktuelle Studie mit dem Titel "How Far Can Unsupervised RLVR Scale LLM Training?" beleuchtet die Potenziale und Limitationen des unüberwachten Reinforcement Learnings mit überprüfbaren Belohnungen (URLVR) für das Training von LLMs. Als Spezialist für Mindverse, einem führenden deutschen KI-Unternehmen, analysieren wir für Sie die wichtigsten Erkenntnisse und deren Implikationen für die B2B-Anwendung von KI-Technologien.

Unüberwachtes Reinforcement Learning mit überprüfbaren Belohnungen (URLVR)

URLVR bietet einen vielversprechenden Weg, das Training von LLMs über die Engpässe der menschlichen Supervision hinaus zu skalieren. Dies geschieht, indem Belohnungen abgeleitet werden, ohne auf Ground-Truth-Labels angewiesen zu sein. Frühere Arbeiten, die intrinsische Modellsignale nutzten, zeigten vielversprechende frühe Erfolge, doch ihr volles Potenzial und ihre Grenzen blieben bisher unklar. Die vorliegende Untersuchung bietet eine umfassende Analyse von URLVR, die Taxonomie, Theorie und umfangreiche Experimente umfasst.

Klassifizierung und theoretischer Rahmen

Die Forscher klassifizieren URLVR-Methoden in intrinsische und externe Ansätze, basierend auf den Belohnungsquellen. Intrinsische Methoden, die auf internen Modellsignalen basieren, konvergieren theoretisch darauf, die initiale Verteilung des Modells zu schärfen. Dieser Mechanismus ist erfolgreich, wenn die anfängliche Konfidenz des Modells mit der Korrektheit übereinstimmt. Bei einer Fehlausrichtung kann dies jedoch zu katastrophalen Fehlern führen. Experimentelle Ergebnisse zeigen, dass intrinsische Belohnungen konsistent einem Muster von "Anstieg und Fall" folgen, wobei der Zeitpunkt des Zusammenbruchs eher durch das Modellprior als durch technische Entscheidungen bestimmt wird.

Trotz dieser Skalierungsgrenzen bleiben intrinsische Belohnungen im Testzeit-Training auf kleinen Datensätzen wertvoll. Die Einführung des "Model Collapse Step" dient als praktischer Indikator für die RL-Trainierbarkeit, indem er das Modellprior misst. Externe Belohnungsmethoden, die die Verifikation in rechnerischen Asymmetrien verankern, zeigen erste Anzeichen, dass sie die "Confidence-Correctness-Obergrenze" überwinden könnten.

Skalierung von Reinforcement Learning für LLMs: Das ScaleRL-Framework

Die Skalierung von Reinforcement Learning (RL) für LLMs ist entscheidend für deren Weiterentwicklung. Bislang fehlte es jedoch an vorhersagbaren Skalierungsmethoden, wie sie im Pre-Training etabliert sind. Die Studie adressiert dieses Defizit durch die Einführung eines systematischen Frameworks zur Analyse und Vorhersage des RL-Skalierungsverhaltens in LLMs.

Vorhersagbare Skalierungskurven

Im Gegensatz zu Power-Laws, die typischerweise im Pre-Training verwendet werden, modelliert das neue Framework die Pass-Rate im Verhältnis zum Logarithmus des Rechenaufwands mit einer sigmoiden Funktion. Diese erweist sich als robuster und stabiler für begrenzte Metriken wie die Genauigkeit. Die sigmoide Kurve beschreibt einen langsamen Anstieg im Bereich geringen Rechenaufwands, eine scharfe Beschleunigung in einem effizienten Bereich und eine Sättigung bei hohem Rechenaufwand, wenn eine Leistungsobergrenze erreicht wird.

Das Framework ermöglicht es Forschern, die Leistung von kleineren Experimenten auf größere Rechenbudgets zu extrapolieren und so die Skalierbarkeit von RL-Methoden kosteneffizient zu bewerten.

ScaleRL: Eine skalierbare Rezeptur

Basierend auf diesem Framework wurde "ScaleRL" entwickelt, eine RL-Rezeptur, die vorhersagbar skaliert. Umfangreiche Experimente mit bis zu 100.000 GPU-Stunden zeigen, dass die Leistung von ScaleRL eng mit den vorhergesagten Skalierungskurven übereinstimmt. Die Extrapolationen aus frühen Trainingsphasen stimmen dabei präzise mit der endgültigen Leistung überein.

Das Design von ScaleRL basiert auf einer umfassenden empirischen Studie, die über 400.000 GPU-Stunden umfasste und verschiedene Designentscheidungen bei Modellen mit 8 Milliarden Parametern untersuchte. Drei Schlüsselprinzipien wurden dabei identifiziert:

Leistungsobergrenzen sind nicht universal: Verschiedene Methoden erreichen unterschiedliche Leistungsgrenzen (A), die durch Faktoren wie Verlusttyp und Batch-Größe beeinflusst werden können.
Die "Bittere Lektion" annehmen: Methoden, die bei kleinen Rechenbudgets überlegen erscheinen, können bei Extrapolation auf große Budgets schlechter abschneiden. Skalierbare Methoden können durch die Schätzung der Skalierungsparameter (A, B) aus den frühen Trainingsdynamiken identifiziert werden.
Gängige Annahmen neu bewerten: Häufige Interventionen, die die Spitzenleistung verbessern sollen (z.B. Verlustaggregation, Daten-Curriculum, Längenstrafe, Vorteilsnormalisierung), beeinflussen hauptsächlich die Recheneffizienz (B), ohne die Leistungsobergrenze wesentlich zu verschieben.

ScaleRL integriert bestehende Methoden, um eine vorhersagbare Skalierung zu erreichen. Dazu gehören ein asynchrones Pipeline-RL-Setup, erzwungene Längenunterbrechungen, abgeschnittene Importance-Sampling-RL-Verlustfunktion (CISPO), Verlustaggregation auf Prompt-Ebene, Vorteilsnormalisierung auf Batch-Ebene, FP32-Präzision bei Logits, Zero-Variance-Filterung und No-Positive-Resampling. Diese Komponenten wurden durch Ablationsstudien validiert.

Wichtige Designentscheidungen

Mehrere algorithmische Entscheidungen wurden detailliert untersucht:

Asynchrones RL-Setup

PipelineRL, ein neuer Ansatz, der Generatoren und Trainer kontinuierlich arbeiten lässt, übertrifft herkömmliche PPO-off-policy-Ansätze in der Recheneffizienz, da es Leerlaufzeiten reduziert und das Training näher am On-Policy-Regime hält. Dies beeinflusst nicht nur die Effizienz, sondern auch die asymptotische Leistung.

Verlustfunktion

CISPO und GSPO übertreffen DAPO erheblich in der asymptotischen Pass-Rate. CISPO zeigt dabei eine länger anhaltende, nahezu lineare Belohnungszunahme und ist robuster gegenüber der Wahl des Clipping-Parameters.

FP32-Präzision für LLM-Logits

Die Verwendung von FP32-Präzision in der letzten Schicht (LM-Head) führt zu einer signifikanten Verbesserung der asymptotischen Leistung. Dies ist auf die Sensitivität des RL-Trainings gegenüber numerischen Ungenauigkeiten zurückzuführen.

Verlustaggregation und Vorteilsnormalisierung

Die Aggregation des Verlusts auf Prompt-Ebene und die Normalisierung der Vorteile auf Batch-Ebene zeigten die besten Ergebnisse und wurden in ScaleRL übernommen.

Zero-Variance-Filterung und adaptives Prompt-Filtern

Das Filtern von Prompts mit identischen Belohnungen (Zero-Variance-Prompts) und das Entfernen von zu einfachen Prompts aus zukünftigen Trainingsphasen (No-Positive-Resampling) verbesserten die Skalierbarkeit und die asymptotische Belohnung.

Robustheit und Generalisierung

Die Ablationsstudien bestätigen, dass die ausgewählten Komponenten von ScaleRL auch in Kombination optimal bleiben. Selbst wenn einzelne Entscheidungen im kombinierten Rezept redundant erscheinen, tragen sie zur Stabilität oder Robustheit bei, die in anderen Regimen entscheidend sein können.

Die Methodologie von ScaleRL ist auf verschiedene Skalierungsachsen anwendbar, einschließlich größerer Batch-Größen, längerer Generierungslängen, Multi-Task-RL und größerer Modelle (Mixture-of-Experts). Die vorhergesagten Kurven stimmen auch hier eng mit den beobachteten Leistungen überein, was die Generalisierbarkeit des Ansatzes unterstreicht.

Herausforderungen und Grenzen von RLVR

Trotz der vielversprechenden Fortschritte, die URLVR und das ScaleRL-Framework bieten, beleuchtet eine weitere Studie, "The Invisible Leash: Why RLVR May or May Not Escape Its Origin", fundamentale Limitationen von RLVR.

Die "unsichtbare Leine"

Diese Untersuchung stellt die Frage, ob die aktuelle Praxis von RLVR die Denkfähigkeit eines Modells wirklich erweitert oder hauptsächlich bereits bekannte, hochbelohnte Ausgaben des Basismodells verstärkt und somit die Präzision verbessert. Die Studie kommt zu dem Schluss, dass RLVR in erster Linie als ein "Support-Constraint Optimization"-Mechanismus fungiert, der die Entdeckung völlig neuer Lösungen einschränken kann, da er durch die initiale Verteilung des Basismodells begrenzt bleibt.

Präzisions-Diversitäts-Kompromiss

Ein zentrales Ergebnis ist die Identifizierung eines "Präzisions-Diversitäts-Kompromisses". Während RLVR die Präzision zuverlässig verbessert, kann es die Exploration progressiv einschränken und potenziell korrekte, aber unterrepräsentierte Lösungen übersehen. Experimente zeigen, dass RLVR zwar konsistent die "Pass@k"-Metrik für kleine k verbessert, die Schrumpfung des empirischen Supports jedoch die Expansion des Supports bei größeren Sampling-Budgets überwiegt. Dies führt dazu, dass korrekte Antworten, die zuvor für das Basismodell zugänglich waren, verloren gehen können.

Interessanterweise kann RLVR manchmal die Entropie auf Token-Ebene erhöhen, was auf größere Unsicherheit bei jedem Generierungsschritt hindeutet. Gleichzeitig reduziert es jedoch die Entropie auf Antwort-Ebene, was bedeutet, dass diese scheinbar unsichereren Pfade letztendlich auf eine kleinere Menge unterschiedlicher Antworten konvergieren. Dies deutet auf eine "lokale Stochastizität ohne globale Exploration" hin.

Implikationen für die Weiterentwicklung

Diese Erkenntnisse legen nahe, dass RLVR an einer "unsichtbaren Leine" hängt. Es bleibt fundamental durch seine Initialisierung begrenzt und kann keine Denkweisen entdecken, die über die effektive Reichweite des Basismodells hinausgehen. Um diese Einschränkung zu überwinden, müsste RLVR möglicherweise durch explizite Explorationsstrategien oder hybride Ansätze ergänzt werden, die gezielt Wahrscheinlichkeitsmasse in unterrepräsentierte Lösungsbereiche einspeisen.

Die Studie betont, dass die Überprüfung der Skalierungseigenschaften von RL-Methoden entscheidend ist, um die Grenzen und Potenziale dieser Ansätze zu verstehen. Dies ist besonders relevant für die Entwicklung von LLMs, die nicht nur präzise, sondern auch in der Lage sind, wirklich neue und vielfältige Lösungen zu generieren.

Schlussfolgerung für die B2B-Anwendung

Für Unternehmen, die LLMs und RL-Technologien einsetzen oder entwickeln, sind diese Erkenntnisse von großer Bedeutung. Das Verständnis der Skalierungsgrenzen von intrinsischem URLVR und die Vorteile eines systematischen Frameworks wie ScaleRL ermöglichen eine effizientere Ressourcenallokation und optimierte Trainingsstrategien. Die Fähigkeit, die Leistung von RL-Trainingsläufen präzise vorherzusagen, ist ein entscheidender Vorteil, um kostspielige Experimente zu minimieren und die Entwicklung robuster und leistungsfähiger KI-Modelle zu beschleunigen.

Gleichzeitig ist es wichtig, die inhärenten Limitationen von RLVR zu erkennen, insbesondere den Kompromiss zwischen Präzision und Diversität der Lösungen. Für Anwendungen, die echte Innovation und die Entdeckung neuartiger Lösungswege erfordern, müssen über die reine Präzisionssteigerung hinausgehende Strategien in Betracht gezogen werden. Dies könnte die Integration von expliziten Explorationsmechanismen oder die Entwicklung von hybriden Trainingsansätzen umfassen, die die Stärken von RLVR mit Methoden zur Erhöhung der Diversität kombinieren.

Mindverse wird diese Entwicklungen weiterhin genau beobachten und in ihre eigenen Produkte und Dienstleistungen integrieren, um unseren Kunden stets die fortschrittlichsten und effektivsten KI-Lösungen anbieten zu können. Die präzise Analyse komplexer Forschungsergebnisse ist dabei unerlässlich, um klare und umsetzbare Erkenntnisse für Ihre Geschäftsstrategien zu liefern.

Bibliography

- He, B., Zuo, Y., Liu, Z., Zhao, S., Fu, Z., Yang, J., Qian, C., Zhang, K., Fan, Y., Cui, G., Chen, X., Sun, Y., Lv, X., Zhu, X., Sheng, L., Li, R., Gao, H., Zhang, Y., Zhou, B., Ding, N. (2026). How Far Can Unsupervised RLVR Scale LLM Training?. arXiv:2603.08660. - He, B., Zuo, Y., Liu, Z., Zhao, S., Fu, Z., Yang, J., Qian, C., Zhang, K., Fan, Y., Cui, G., Chen, X., Sun, Y., Lv, X., Zhu, X., Sheng, L., Li, R., Gao, H., Zhang, Y., Yuan, L., Zhou, B., et al. (2026). How Far Can Unsupervised RLVR Scale LLM Training?. OpenReview. - He, B., Zuo, Y., Liu, Z., Zhao, S., Fu, Z., Yang, J., Qian, C., Zhang, K., Fan, Y., Cui, G., Chen, X., Sun, Y., Lv, X., Zhu, X., Sheng, L., Li, R., Gao, H., Zhang, Y., Yuan, L., Zhou, B., et al. (2026). How Far Can Unsupervised RLVR Scale LLM Training?. ICLR 2026 Poster. - He, B., Zuo, Y., Liu, Z., Zhao, S., Fu, Z., Yang, J., Qian, C., Zhang, K., Fan, Y., Cui, G., Chen, X., Sun, Y., Lv, X., Zhu, X., Sheng, L., Li, R., Gao, H., Zhang, Y., Yuan, L., Zhou, B., et al. (2026). How Far Can Unsupervised RLVR Scale LLM Training?. alphaXiv. - He, B., Zuo, Y., Liu, Z., Zhao, S., Fu, Z., Yang, J., Qian, C., Zhang, K., Fan, Y., Cui, G., Chen, X., Sun, Y., Lv, X., Zhu, X., Sheng, L., Li, R., Gao, H., Zhang, Y., Yuan, L., Zhou, B., et al. (2026). How Far Can Unsupervised RLVR Scale LLM Training?. papers.cool. - Khatri, D., Madaan, L., Tiwari, R., Bansal, R., Duvvuri, S. S., Zaheer, M., Dhillon, I. S., Brandfonbrener, D., Agarwal, R. (2025). The Art of Scaling Reinforcement Learning Compute for LLMs. arXiv:2510.13786. - Wu, F., Xuan, W., Lu, X., Liu, M., Dong, Y., Harchaoui, Z., Choi, Y. (2025). The Invisible Leash: Why RLVR May or May Not Escape Its Origin. arXiv:2507.14843. - Xiao, Y., Wang, L., Deng, Y., Chen, G., Jin, Z., Kim, J., Li, X., Lee, R. K., Bing, L. (2026). Document Reconstruction Unlocks Scalable Long-Context RLVR. arXiv:2602.08237.