Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die rapide Entwicklung von Large Language Models (LLMs) hat die Erwartungen an deren Fähigkeiten maßgeblich erhöht. Nutzer erwarten nicht nur präzise Antworten, sondern auch ein Verhalten, das sich an einer Vielzahl unterschiedlicher menschlicher Präferenzen orientiert. Um diesen Anforderungen gerecht zu werden, integrieren Reinforcement Learning (RL)-Pipelines zunehmend mehrere Belohnungssignale, die jeweils eine spezifische Präferenz abbilden und die Modelle zu den gewünschten Verhaltensweisen leiten sollen.
Bisherige Arbeiten haben für die Multi-Reward-Optimierung oft standardmäßig auf die Group Relative Policy Optimization (GRPO) zurückgegriffen, ohne deren Eignung in diesem Kontext umfassend zu prüfen. Eine aktuelle Analyse zeigt jedoch, dass die direkte Anwendung von GRPO zur Normalisierung unterschiedlicher Kombinationen von Rollout-Belohnungen zu einem Phänomen führen kann, das als "Reward Collapse" bezeichnet wird. Hierbei verschmelzen unterschiedliche Belohnungssignale zu identischen Vorteilswerten. Dies hat zur Folge, dass die Auflösung des Trainingssignals reduziert wird, was in suboptimaler Konvergenz und in einigen Fällen sogar zum vorzeitigen Abbruch des Trainings führen kann.
Um dieses Problem zu verdeutlichen, betrachten Sie ein Szenario mit zwei binären Belohnungen (r1, r2 ∈ {0, 1}) und zwei Rollouts. Die Gesamtbelohnung kann Werte von {0, 1, 2} annehmen. Während es sechs verschiedene Belohnungskombinationen gibt (wenn die Reihenfolge ignoriert wird), führt die Anwendung von GRPO oft zu nur zwei eindeutigen Vorteilswertgruppen. Zum Beispiel können die Kombinationen (0,1), (0,2) und (1,2) identische normalisierte Vorteile ergeben. Dies ist problematisch, da (0,2) intuitiv ein stärkeres Lernsignal liefern sollte als (0,1), da eine Gesamtbelohnung von 2 die gleichzeitige Erfüllung beider Belohnungen anzeigt, während eine Belohnung von 1 nur die Erfüllung einer einzelnen Belohnung bedeutet.
Als Antwort auf diese Einschränkungen wird die Group reward-Decoupled Normalization Policy Optimization (GDPO) vorgestellt. Diese neue Policy-Optimierungsmethode zielt darauf ab, die Normalisierung individueller Belohnungen zu entkoppeln, um deren relative Unterschiede genauer zu bewahren und eine präzisere Multi-Reward-Optimierung zu ermöglichen. Gleichzeitig verbessert GDPO die Trainingsstabilität erheblich.
Der Kernansatz von GDPO liegt darin, die gruppenweise Normalisierung jeder einzelnen Belohnung separat durchzuführen, bevor diese aggregiert werden. Im Gegensatz dazu wendet GRPO die gruppenweise Normalisierung direkt auf die Summe der Belohnungen an. Nach der entkoppelten gruppenweisen Normalisierung wird eine batchweise Vorteilsnormalisierung auf die Summe der Multi-Reward-Vorteile angewendet. Dies stellt sicher, dass die numerische Skala des endgültigen Vorteils stabil bleibt und nicht mit der Einführung zusätzlicher Belohnungen ansteigt. Empirische Beobachtungen zeigen, dass dieser Normalisierungsschritt die Trainingsstabilität verbessert und Konvergenzfehler, die ohne ihn auftreten können, reduziert.
Die Wirksamkeit von GDPO wurde in umfassenden Experimenten mit GRPO in drei verschiedenen Aufgabenbereichen verglichen: Tool-Calling, mathematisches Denken und Code-Reasoning. Diese Aufgaben umfassen eine breite Palette von Zielen, darunter Genauigkeit, Einhaltung von Formatvorgaben, Länge von Antworten und Code-Qualität.
Ein weiterer wichtiger Aspekt ist die einfache Integrierbarkeit von GDPO. Es kann als direkter Ersatz für GRPO in bestehenden RL-Frameworks wie TRL und verl dienen und erfordert nur geringfügige Code-Änderungen. Dies erleichtert die Adoption und Anwendung in praktischen Szenarien erheblich.
Die Studie untersuchte auch, wie unterschiedliche Prioritäten menschlicher Präferenzen in das Trainingsverfahren integriert werden können. Es wurde festgestellt, dass die bloße Anpassung von Belohnungsgewichten nicht immer die gewünschte Priorisierung bewirkt, insbesondere wenn die Schwierigkeitsgrade der zugrunde liegenden Ziele stark voneinander abweichen. In solchen Fällen neigt das Modell dazu, das leichtere Ziel zu maximieren, unabhängig von den zugewiesenen Gewichten.
Eine effektivere Strategie besteht darin, Belohnungsfunktionen anzupassen, indem schwierigere Belohnungen bedingt gemacht werden. Beispielsweise kann eine Längenbelohnung nur dann vergeben werden, wenn die Antwort auch korrekt ist. Diese Methode zwingt das Modell, zuerst die menschlich priorisierte Belohnung zu maximieren und führt zu einer zuverlässigeren Ausrichtung der Präferenzen. Nach der Lösung dieses Problems durch bedingte Belohnungen kann die Feinabstimmung der Prioritäten durch unterschiedliche Belohnungsgewichte effektiver reflektiert werden.
Die Analyse zeigt, dass GDPO eine stabilere, präzisere und präferenz-ausgerichtete Optimierungsmethode für Multi-Reward Reinforcement Learning darstellt als GRPO. Durch die Entkopplung der Belohnungsnormalisierung und die batchweise Vorteilsnormalisierung werden Informationsverluste im Trainingssignal vermieden, was zu einer verbesserten Konvergenz und Leistung führt. GDPO bietet somit eine robuste Grundlage für die Ausrichtung von Sprachmodellen an vielfältigen menschlichen Präferenzen in realen Anwendungen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen