Neue Ansätze zur Multi-Reward-Optimierung in Reinforcement Learning: Die Rolle von GDPO

Kategorien:

No items found.

Freigegeben:

January 10, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Die Optimierung von Large Language Models (LLMs) für vielfältige menschliche Präferenzen erfordert den Einsatz von Multi-Reward Reinforcement Learning (RL).
Die herkömmliche Methode Group Relative Policy Optimization (GRPO) kann bei der Multi-Reward-Optimierung zu einem "Reward Collapse" führen, bei dem unterschiedliche Belohnungssignale zu identischen Vorteilswerten verschmelzen.
Dies reduziert die Auflösung des Trainingssignals und kann zu suboptimaler Konvergenz oder gar zu einem frühen Trainingsabbruch führen.
Group reward-Decoupled Normalization Policy Optimization (GDPO) löst dieses Problem durch die entkoppelte Normalisierung jeder einzelnen Belohnung vor der Aggregation.
GDPO bewahrt die relativen Unterschiede der Belohnungen besser und ermöglicht eine präzisere Multi-Reward-Optimierung sowie eine verbesserte Trainingsstabilität.
Experimente in Tool-Calling, mathematischem Denken und Code-Reasoning zeigen, dass GDPO GRPO in allen Szenarien übertrifft.
GDPO kann als direkter Ersatz für GRPO in bestehenden RL-Frameworks wie TRL und verl eingesetzt werden.

Verbesserte Multi-Reward-Optimierung in RL-Systemen: Eine Analyse von GDPO

Die rapide Entwicklung von Large Language Models (LLMs) hat die Erwartungen an deren Fähigkeiten maßgeblich erhöht. Nutzer erwarten nicht nur präzise Antworten, sondern auch ein Verhalten, das sich an einer Vielzahl unterschiedlicher menschlicher Präferenzen orientiert. Um diesen Anforderungen gerecht zu werden, integrieren Reinforcement Learning (RL)-Pipelines zunehmend mehrere Belohnungssignale, die jeweils eine spezifische Präferenz abbilden und die Modelle zu den gewünschten Verhaltensweisen leiten sollen.

Die Herausforderung der Multi-Reward-Optimierung mit GRPO

Bisherige Arbeiten haben für die Multi-Reward-Optimierung oft standardmäßig auf die Group Relative Policy Optimization (GRPO) zurückgegriffen, ohne deren Eignung in diesem Kontext umfassend zu prüfen. Eine aktuelle Analyse zeigt jedoch, dass die direkte Anwendung von GRPO zur Normalisierung unterschiedlicher Kombinationen von Rollout-Belohnungen zu einem Phänomen führen kann, das als "Reward Collapse" bezeichnet wird. Hierbei verschmelzen unterschiedliche Belohnungssignale zu identischen Vorteilswerten. Dies hat zur Folge, dass die Auflösung des Trainingssignals reduziert wird, was in suboptimaler Konvergenz und in einigen Fällen sogar zum vorzeitigen Abbruch des Trainings führen kann.

Um dieses Problem zu verdeutlichen, betrachten Sie ein Szenario mit zwei binären Belohnungen (r1, r2 ∈ {0, 1}) und zwei Rollouts. Die Gesamtbelohnung kann Werte von {0, 1, 2} annehmen. Während es sechs verschiedene Belohnungskombinationen gibt (wenn die Reihenfolge ignoriert wird), führt die Anwendung von GRPO oft zu nur zwei eindeutigen Vorteilswertgruppen. Zum Beispiel können die Kombinationen (0,1), (0,2) und (1,2) identische normalisierte Vorteile ergeben. Dies ist problematisch, da (0,2) intuitiv ein stärkeres Lernsignal liefern sollte als (0,1), da eine Gesamtbelohnung von 2 die gleichzeitige Erfüllung beider Belohnungen anzeigt, während eine Belohnung von 1 nur die Erfüllung einer einzelnen Belohnung bedeutet.

GDPO: Eine Lösung für den Reward Collapse

Als Antwort auf diese Einschränkungen wird die Group reward-Decoupled Normalization Policy Optimization (GDPO) vorgestellt. Diese neue Policy-Optimierungsmethode zielt darauf ab, die Normalisierung individueller Belohnungen zu entkoppeln, um deren relative Unterschiede genauer zu bewahren und eine präzisere Multi-Reward-Optimierung zu ermöglichen. Gleichzeitig verbessert GDPO die Trainingsstabilität erheblich.

Der Kernansatz von GDPO liegt darin, die gruppenweise Normalisierung jeder einzelnen Belohnung separat durchzuführen, bevor diese aggregiert werden. Im Gegensatz dazu wendet GRPO die gruppenweise Normalisierung direkt auf die Summe der Belohnungen an. Nach der entkoppelten gruppenweisen Normalisierung wird eine batchweise Vorteilsnormalisierung auf die Summe der Multi-Reward-Vorteile angewendet. Dies stellt sicher, dass die numerische Skala des endgültigen Vorteils stabil bleibt und nicht mit der Einführung zusätzlicher Belohnungen ansteigt. Empirische Beobachtungen zeigen, dass dieser Normalisierungsschritt die Trainingsstabilität verbessert und Konvergenzfehler, die ohne ihn auftreten können, reduziert.

Empirische Validierung und praktische Implikationen

Die Wirksamkeit von GDPO wurde in umfassenden Experimenten mit GRPO in drei verschiedenen Aufgabenbereichen verglichen: Tool-Calling, mathematisches Denken und Code-Reasoning. Diese Aufgaben umfassen eine breite Palette von Zielen, darunter Genauigkeit, Einhaltung von Formatvorgaben, Länge von Antworten und Code-Qualität.

Tool-Calling: Beim Tool-Calling-Task zeigte GDPO eine konsistent höhere Konvergenz bei Korrektheits- und Formatbelohnungen im Vergleich zu GRPO. Die GDPO-trainierten Modelle erreichten signifikant höhere durchschnittliche Tool-Calling-Genauigkeiten und Formatkorrektheiten.
Mathematisches Denken: In mathematischen Denkaufgaben, bei denen Genauigkeit und Längenbeschränkungen optimiert werden sollten, übertrafen GDPO-trainierte Modelle GRPO. GDPO führte zu einer besseren Balance zwischen diesen oft konkurrierenden Zielen, indem es höhere Genauigkeiten bei gleichzeitig effektiverer Einhaltung von Längenbeschränkungen erzielte. Insbesondere konnte GDPO das Problem der Trainingsinstabilität, das bei GRPO auftrat, eliminieren.
Code-Reasoning: Auch bei der Optimierung von drei Belohnungen (Pass-Rate, Längenbeschränkung und Bug-Rate) im Code-Reasoning-Task erwies sich GDPO als überlegen. Es erreichte eine bessere Ausgewogenheit über alle Ziele hinweg und reduzierte sowohl die Überschreitungsrate der Länge als auch die Bug-Rate im Vergleich zu GRPO.

Ein weiterer wichtiger Aspekt ist die einfache Integrierbarkeit von GDPO. Es kann als direkter Ersatz für GRPO in bestehenden RL-Frameworks wie TRL und verl dienen und erfordert nur geringfügige Code-Änderungen. Dies erleichtert die Adoption und Anwendung in praktischen Szenarien erheblich.

Umgang mit variierenden Prioritäten

Die Studie untersuchte auch, wie unterschiedliche Prioritäten menschlicher Präferenzen in das Trainingsverfahren integriert werden können. Es wurde festgestellt, dass die bloße Anpassung von Belohnungsgewichten nicht immer die gewünschte Priorisierung bewirkt, insbesondere wenn die Schwierigkeitsgrade der zugrunde liegenden Ziele stark voneinander abweichen. In solchen Fällen neigt das Modell dazu, das leichtere Ziel zu maximieren, unabhängig von den zugewiesenen Gewichten.

Eine effektivere Strategie besteht darin, Belohnungsfunktionen anzupassen, indem schwierigere Belohnungen bedingt gemacht werden. Beispielsweise kann eine Längenbelohnung nur dann vergeben werden, wenn die Antwort auch korrekt ist. Diese Methode zwingt das Modell, zuerst die menschlich priorisierte Belohnung zu maximieren und führt zu einer zuverlässigeren Ausrichtung der Präferenzen. Nach der Lösung dieses Problems durch bedingte Belohnungen kann die Feinabstimmung der Prioritäten durch unterschiedliche Belohnungsgewichte effektiver reflektiert werden.

Fazit

Die Analyse zeigt, dass GDPO eine stabilere, präzisere und präferenz-ausgerichtete Optimierungsmethode für Multi-Reward Reinforcement Learning darstellt als GRPO. Durch die Entkopplung der Belohnungsnormalisierung und die batchweise Vorteilsnormalisierung werden Informationsverluste im Trainingssignal vermieden, was zu einer verbesserten Konvergenz und Leistung führt. GDPO bietet somit eine robuste Grundlage für die Ausrichtung von Sprachmodellen an vielfältigen menschlichen Präferenzen in realen Anwendungen.

Bibliographie

Shih-Yang Liu et al. "GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization". arXiv preprint arXiv:2601.05242, 2026.
NVIDIA Labs GDPO Project Page: nvlabs.github.io/GDPO/
Hugging Face Paper Page: huggingface.co/papers/2601.05242
LinkedIn Post von Shizhe Diao: linkedin.com/posts/shizhediao_still-using-grpo-for-multi-reward-rl-training-activity-7415252161644634112-8NgL
AI Papers Slop. "Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization". YouTube, 2026.
Threads Post von Sung Kim: threads.com/@sung.kim.mw/post/DTVU192kRXv/gdpo-normalizes-each-reward-independently-before-aggregation-instead-of