PRIME: Ein neuer Ansatz für effizientes Reinforcement Learning in Sprachmodellen
Einleitung
Die stetige Verbesserung der Denkfähigkeiten großer Sprachmodelle (LLMs) durch datengetriebene Imitation stößt auf Skalierungsprobleme. Bessere Denkprozesse erfordern exponentiell mehr hochwertige Beispiele, was die kontinuierliche Verbesserung zunehmend aufwendig gestaltet. Ein vielversprechender Lösungsansatz liegt in der Transformation datengetriebener Verfahren zu explorativen Methoden, wie sie im Reinforcement Learning (RL) zum Einsatz kommen. Zwei zentrale Herausforderungen müssen bewältigt werden: 1. Wie lassen sich präzise Belohnungssignale effizient und skalierbar, insbesondere für dichte Belohnungen, generieren? 2. Wie können wir effektive RL-Algorithmen entwickeln, um das Potenzial dieser Signale voll auszuschöpfen?
Implizite Prozessbelohnungsmodelle (PRM)
Eine aktuelle Studie präsentiert das Konzept des impliziten Prozessbelohnungsmodells (PRM). Implizite PRMs werden wie herkömmliche Ergebnisbelohnungsmodelle (ORM) trainiert, benötigen jedoch keine Prozesslabels. Neben der Verbesserung der Modellleistung durch Inferenzskalierung liegt die Stärke impliziter PRMs im Online-RL-Training. Drei Vorteile zeichnen sich ab:
Dichte Belohnung: Implizite PRMs lernen direkt eine Q-Funktion, die für jedes Token Belohnungen liefert. Dies mindert das Problem der Belohnungssparsity ohne ein zusätzliches Bewertungsmodell.
Skalierbarkeit: Implizite PRMs können online mit nur Ergebnislabels aktualisiert werden. Dadurch lässt sich das PRM direkt mit On-Policy-Rollouts und Ergebnisprüfern aktualisieren, was die Verteilungsschwankungen und Skalierungsprobleme von PRMs reduziert.
Einfachheit: Ein implizites PRM ist im Grunde ein Sprachmodell. Es ist nicht notwendig, ein PRM vorab zu trainieren, da das SFT-Modell selbst als solider Ausgangspunkt dient.
PRIME: Prozessverstärkung durch implizite Belohnungen
PRIME (Process Reinforcement through IMplicit REwards) ist ein Verfahren, das implizite PRMs effektiv in RL integriert und aktualisiert. Sowohl das Policy-Modell als auch das PRM werden mit dem SFT-Modell initialisiert. In jeder RL-Iteration generiert das Policy-Modell Rollouts. Das implizite PRM und der Ergebnisprüfer bewerten die Rollouts, und das PRM wird anhand der Rollouts mit der Ergebnisbelohnung aktualisiert. Ergebnisbelohnung und Prozessbelohnung werden kombiniert, um das Policy-Modell zu aktualisieren.
Eurus-2-7B-PRIME: Ein leistungsstarkes Sprachmodell
Mit PRIME konnten erhebliche Verbesserungen in wichtigen Denk-Benchmarks gegenüber der SFT-Version des Modells erzielt werden – durchschnittlich 16,7% und über 20% bei AMC- und AIME-Wettbewerben. Das auf Qwen-2.5-Math-7B-Base basierende Modell Eurus-2-7B-PRIME übertraf seine Instruct-Version in fünf wichtigen Denk-Benchmarks. Dies wurde mit nur einem Zehntel der Datenressourcen im Vergleich zu Qwen-Math erreicht.
Inferenzskalierung mit EurusPRM
Durch Training eines PRM mit dem impliziten PRM-Ziel für die Inferenzskalierung konnte die Denkfähigkeit des Modells weiter gesteigert werden. EurusPRM ermöglicht Techniken wie "Best-of-N"-Sampling, bei dem das Modell mehrere potenzielle Lösungen generiert und EurusPRM die vielversprechendste auswählt.
Fazit
PRIME bietet einen vielversprechenden Ansatz für effizientes Reinforcement Learning in Sprachmodellen. Durch die Nutzung impliziter Belohnungen und die kontinuierliche Aktualisierung des PRM während des Trainings ermöglicht PRIME deutliche Leistungssteigerungen bei gleichzeitig reduziertem Daten- und Rechenaufwand. Die Ergebnisse von Eurus-2-7B-PRIME unterstreichen das Potenzial dieses Ansatzes für die Entwicklung leistungsstarker und effizienter Sprachmodelle.
Bibliography:
https://huggingface.co/blog/ganqu/prime
https://github.com/PRIME-RL/PRIME
https://x.com/Marktechpost/status/1875734139535790394
https://www.reddit.com/r/machinelearningnews/comments/1htvko0/prime_process_reinforcement_through_implicit/
https://x.com/Smol_AI/status/1876456681544253633
https://www.aibase.com/tool/35502
https://app.daily.dev/posts/prime-an-open-source-solution-for-online-reinforcement-learning-with-process-rewards-to-advance-rea-olj00jgig
https://the-decoder.com/ai-learns-math-better-with-new-approach-that-uses-a-fraction-of-the-data/
https://digialps.com/unlocking-elite-ai-performance-can-a-7b-model-powered-by-prime-outshine-gpt-4o/