Neues Trainingsparadigma zur Verbesserung der Stabilität und Leistung von Sprachmodellen

Kategorien:

No items found.

Freigegeben:

April 7, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Die On-Policy Self-Distillation (OPSD) in großen Sprachmodellen zeigt Schwächen wie Informationslecks und Instabilität im Langzeit-Training.
Ein neues Paradigma namens RLSD (Reinforcement Learning with Self-Distillation) wurde entwickelt, um diese Probleme zu adressieren.
RLSD kombiniert die Vorteile von Reinforcement Learning with Verifiable Rewards (RLVR) und OPSD, indem es zuverlässige Update-Richtungen aus Umgebungs-Feedback mit feinkörnigen Update-Größen durch Selbst-Distillation vereint.
Diese Methode verbessert die Konvergenzgeschwindigkeit und die Trainingsstabilität von Sprachmodellen.
Umfassende Experimente belegen die Effektivität von RLSD, insbesondere bei multimodalen Denkaufgaben.

Die kontinuierliche Weiterentwicklung von großen Sprachmodellen (LLMs) ist ein zentrales Thema in der aktuellen KI-Forschung. Insbesondere die Methoden des Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) und der On-Policy Distillation (OPD) spielen hierbei eine wichtige Rolle. Jüngste Studien beleuchten jedoch die Grenzen bestehender Ansätze und präsentieren eine innovative Lösung zur Verbesserung der Trainingsstabilität und Leistung von LLMs.

Herausforderungen bei existierenden Trainingsparadigmen

Reinforcement Learning with Verifiable Rewards (RLVR), wie es beispielsweise in der Group Relative Policy Optimization (GRPO) angewendet wird, ist ein etabliertes Paradigma für das Training von LLMs, insbesondere in Bereichen wie Code-Generierung und mathematischem Denken. Diese Methoden stützen sich auf spärliche, skalare Belohnungssignale, die das Ergebnis einer gesamten Trajektorie bewerten. Dies führt oft zu einem sogenannten "Credit-Assignment-Problem", bei dem es schwierig ist, einzelnen Token oder Zwischenschritten eine genaue Verantwortlichkeit für das Endergebnis zuzuweisen.

Die On-Policy Distillation (OPD) versucht, dieses Problem zu mildern, indem sie ein größeres, leistungsfähigeres Modell als "Lehrer" verwendet, um dichte, feinkörnige Signale auf Token-Ebene für jede abgetastete Trajektorie bereitzustellen. Dies kann zu einer schnelleren Konvergenz führen. Allerdings ist OPD mit erheblichem Rechenaufwand verbunden, da ein separates, oft größeres, Lehrmodell während des gesamten Trainings aufrechterhalten werden muss.

Als vielversprechende Alternative hat sich in der Forschung die On-Policy Self-Distillation (OPSD) herauskristallisiert. Hierbei agiert dasselbe Modell sowohl als Lehrer als auch als Schüler, wobei der Lehrer zusätzliche privilegierte Informationen, wie Referenzantworten oder verifizierte Argumentationsketten, erhält. OPSD verspricht eine verbesserte Token-Effizienz ohne die Notwendigkeit eines externen Modells.

Grenzen der On-Policy Self-Distillation (OPSD)

Trotz der potenziellen Vorteile von OPSD haben detaillierte Analysen und experimentelle Beobachtungen grundlegende Schwächen dieses Ansatzes aufgezeigt. Ein zentrales Problem ist das sogenannte "Informationsleck". Wenn der Lehrer ausschließlich auf privilegierten Informationen basiert, die dem Schüler während der Inferenz nicht zugänglich sind, führt dies zu einer asymmetrischen Informationsverteilung. Dies kann dazu führen, dass das Modell während des Trainings Korrelationen zwischen den Eingabedaten und den privilegierten Informationen lernt, die im Testzeitpunkt nicht vorhanden sind. Infolgedessen kann das Modell explizit auf "unsichtbare Referenzlösungen" verweisen, was seine Fähigkeit zur Generalisierung beeinträchtigt.

Dieses Informationsleck verursacht auch eine Instabilität im Langzeit-Training. Die Leistung von OPSD-Modellen erreicht oft früh einen Höhepunkt und verschlechtert sich danach, begleitet von einer zunehmenden Häufigkeit von Informationslecks. Die Konvergenz der KL-Divergenz zwischen Lehrer und Schüler stagniert, was auf eine nicht reduzierbare Informationslücke im OPSD-Ziel hindeutet. Diese Lücke verhindert eine sinnvolle Konvergenz und führt dazu, dass das Optimierungssignal durch schädliches Rauschen verzerrt wird.

RLSD: Eine neue Perspektive auf Selbst-Distillation

Um die identifizierten Probleme der OPSD zu überwinden, wurde ein neues Trainingsparadigma vorgeschlagen: Reinforcement Learning with Self-Distillation (RLSD). RLSD zielt darauf ab, die Stärken von RLVR und Selbst-Distillation zu vereinen, indem es die Rolle des Lehrers neu definiert.

Der Kernansatz von RLSD besteht darin, die Selbst-Distillation nicht als generatives Ziel für die Verteilungsgleichheit zu nutzen, sondern als Mechanismus zur Bestimmung feinkörniger Update-Größen auf Token-Ebene. Die zuverlässige Belohnung aus der Umgebung (RLVR) steuert dabei die Update-Richtungen, während die Selbst-Distillation die relative Stärke dieser Updates moduliert. Dies bedeutet, dass die privilegierte Information des Lehrers lediglich den "Grad" der Anpassung eines Tokens beeinflusst, nicht aber die "Richtung" der Anpassung oder ob ein Token überhaupt verstärkt oder bestraft wird.

Funktionsweise von RLSD

RLSD arbeitet in mehreren Schritten:

1. Privilegierter Informationsgewinn: Für jede vom Schüler generierte Trajektorie wird der Log-Wahrscheinlichkeit jedes Tokens sowohl im Schüler-Kontext (nur Eingabe) als auch im Lehrer-Kontext (Eingabe und privilegierte Information) berechnet. Die Differenz dieser Log-Wahrscheinlichkeiten, der privilegierte Informationsgewinn (Δt), quantifiziert, wie stark die privilegierte Information die Vorhersage eines Tokens unterstützt oder ablehnt. Ein Stop-Gradient-Operator stellt sicher, dass Δt ausschließlich als Gewichtungssignal dient und keine zusätzlichen Gradientenpfade einführt.

2. Richtungsbewusste Evidenz-Neugewichtung: Aus dem privilegierten Informationsgewinn wird ein Token-spezifisches Gewicht (wt) konstruiert, das durch das Vorzeichen des sequenz-level-Vorteils moduliert wird. Dies ermöglicht eine bayesianische Interpretation: wt misst, wie stark die privilegierte Information die Überzeugung des Modells über jedes Token revidiert. Bei positiver Belohnung erhalten vom Lehrer unterstützte Token größere Gewichte, bei negativer Belohnung werden Token, die der Lehrer ablehnt, stärker bestraft. Das Vorzeichen des Token-level-Vorteils wird dabei nie umgekehrt, wodurch die Umgebung weiterhin die alleinige Autorität über die Richtung der Optimierung behält.

3. Geklammerte Kredit-Zuweisung: Ähnlich wie bei PPO wird das Evidenzgewicht geklammert, um den maximalen Einfluss eines einzelnen Tokens zu begrenzen. Dies dient als Vertrauensbereichs-Constraint, der das Training stabilisiert. Im Laufe des Trainings wird ein Mischkoeffizient λ linear von 0,5 auf 0 reduziert, wodurch RLSD allmählich von der reinen Selbst-Distillation zu einem GRPO-ähnlichen Verhalten übergeht.

Die Integration von RLSD in bestehende GRPO-Pipelines erfordert keine zusätzlichen Verlustfunktionen oder Modelle. Der einzige Mehraufwand ist ein zusätzlicher Forward-Pass pro Antwort, um die Lehrer-Logits zu erhalten, was im Verhältnis zur Gesamt-Rechenzeit vernachlässigbar ist.

Experimentelle Validierung und Ergebnisse

Die Wirksamkeit von RLSD wurde anhand des Modells Qwen3-VL-8B-Instruct auf fünf multimodalen Denk-Benchmarks (MMMU, MathVista, MathVision, ZeroBench, WeMath) evaluiert. Diese Benchmarks decken ein breites Spektrum an mathematischen und allgemeinen Denkfähigkeiten ab.

Die Ergebnisse zeigen, dass RLSD die höchste durchschnittliche Genauigkeit erreicht und das Basis-LLM um 4,69 % sowie GRPO um 2,32 % übertrifft. Insbesondere bei mathematisch anspruchsvollen Datensätzen wie MathVista und MathVision erzielt RLSD deutliche Verbesserungen, was auf die Vorteile der dichten Token-level-Kredit-Zuweisung zurückzuführen ist.

Die Analyse der Trainingsdynamik bestätigt, dass RLSD einen steileren initialen Anstieg der Genauigkeit aufweist und ein höheres Belohnungsniveau erreicht als GRPO, während es den bei OPSD beobachteten Leistungsabfall im späteren Stadium vermeidet. RLSD bewahrt zudem ein konsistent höheres Entropieniveau, indem es kritische Denk-Token selektiv stärkt, ohne Alternativen uniform zu unterdrücken.

Fallstudien

Qualitative Fallstudien illustrieren, wie RLSD Belohnungen auf Token-Ebene neu verteilt. In korrekten Trajektorien wird größeren Kredit Token zugewiesen, die entscheidend für die Richtigkeit sind (z.B. Zähl- oder Subtraktionsschritte), während generische Formulierungen weniger gewichtet werden. In inkorrekten Trajektorien wird die stärkste „Schuld“ falsch gelesenen Beziehungen oder abgeleiteten falschen Antworten zugewiesen, während neutrale Set-up-Token geringere Strafen erhalten. Dieses Verhalten steht im Einklang mit dem Designziel von RLSD, eine zielgerichtete Kredit-Zuweisung auf Token-Ebene zu ermöglichen, die an die durch den Verifizierer begründete Richtigkeit gebunden ist.

Schlussfolgerung

Die Forschung hat die fundamentalen Einschränkungen der On-Policy Self-Distillation (OPSD) identifiziert, insbesondere die Probleme des Informationslecks und der Trainingsinstabilität, die durch Informationsasymmetrie zwischen Lehrer und Schüler entstehen. Basierend auf dieser Analyse wurde RLSD entwickelt, ein Paradigma, das über den reinen Abgleich von Verteilungen hinausgeht.

RLSD nutzt die Diskrepanz zwischen Lehrer- und Schüler-Verteilung, um eine feinkörnige Kontrolle über die Update-Größen auf Token-Ebene zu ermöglichen, während die Update-Richtungen fest an die Umgebungsbelohnung gekoppelt bleiben. Dieses Design vereint die Vorteile der dichten Token-level-Supervision von OPSD mit der zuverlässigen Umgebungs-Verankerung von RLVR, was zu einer verbesserten Konvergenz und Trainingsstabilität führt. Die Ergebnisse zeigen, dass RLSD ein vielversprechender Ansatz zur weiteren Verbesserung der Leistungsfähigkeit von LLMs ist, insbesondere in komplexen Denkaufgaben.

Ausblick

Die aktuelle Arbeit konzentriert sich hauptsächlich auf die theoretische Analyse der strukturellen Grenzen von OPSD und die Validierung des RLSD-Paradigmas in multimodalen Denkszenarien. Zukünftige Arbeiten könnten die Anwendung von RLSD in weiteren Kontexten, wie reinem Text-Reasoning oder Video-Verständnis, untersuchen und die Skalierbarkeit auf größere Modellfamilien prüfen. Die bisherigen Ergebnisse deuten auf konsistente Leistungssteigerungen hin, was das Potenzial von RLSD für die breitere Anwendung in der KI-Forschung und -Entwicklung unterstreicht.

Bibliographie

- Chenxu Yang, Chuanyu Qin, Qingyi Si, Minghui Chen, Naibin Gu, Dingyu Yao, Zheng Lin, Weiping Wang, Jiaqi Wang, Nan Duan. (2026). Self-Distilled RLVR. arXiv:2604.03128. - Jonas Hübotter, Frederike Lübeck, Lejs Behric, Anton Baumann, Marco Bagatella, Daniel Marta, Ido Hakimi, Idan Shenfeld, Thomas Kleine Buening, Carlos Guestrin, Andreas Krause. (2026). Reinforcement Learning via Self-Distillation. arXiv:2601.20802. - Gengsheng Li, Tianyu Yang, Junfeng Fang, Mingyang Song, Mao Zheng, Haiyun Guo, Dan Zhang, Jinqiao Wang, Tat-Seng Chua. (2026). Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing. arXiv:2604.02288. - Grigory Sapunov. (2026). Reinforcement Learning via Self-Distillation. ArXivIQ. - Hugging Face, Paper page - Self-Distilled RLVR. (2026). https://huggingface.co/papers/2604.03128 - SDPO: Reinforcement Learning via Self-Distillation. (2026). https://self-distillation.github.io - AkihikoWatanabe. (2026). [Paper Note] Reinforcement Learning via Self-Distillation, Jonas Hübotter+, arXiv'26, 2026.01. GitHub Issue #4336. https://github.com/AkihikoWatanabe/paper_notes/issues/4336 - ScienceCast. (2026). Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing. https://sciencecast.org/casts/fuyv42iwxqtp