On-Policy Distillation als innovative Methode zur Verbesserung von Sprachmodellen

Kategorien:

No items found.

Freigegeben:

May 26, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

On-Policy Distillation (OPD) ist eine Post-Training-Technik für Sprachmodelle, die die Vorteile von dichter Überwachung und On-Policy-Lernen kombiniert.
OPD adressiert das Problem der Expositionsverzerrung, indem das Studentenmodell seine eigenen Trajektorien generiert und darauf basierend Feedback vom Lehrermodell erhält.
Im Gegensatz zur traditionellen Knowledge Distillation (KD), die auf statischen Datensätzen trainiert, ermöglicht OPD eine dynamische Anpassung an die tatsächlichen Verhaltensweisen des Studentenmodells.
OPD wird in verschiedenen Varianten eingesetzt, darunter White-Box-, Black-Box- und Self-Distillation-Ansätze, die jeweils unterschiedliche Zugriffslevel auf das Lehrermodell aufweisen.
Die Effizienz und Stabilität von OPD werden durch Techniken wie adaptive Divergenzen, Curriculum-Lernen und Rechenoptimierungen verbessert.
Trotz seiner Vorteile birgt OPD Herausforderungen wie den "Flawed Prefix Trap", Sättigungsprobleme bei der Self-Distillation und den Overhead für die Generierung von Studententrajektorien.

On-Policy Distillation: Eine detaillierte Analyse der Post-Training-Technik für Sprachmodelle

Die Landschaft der Künstlichen Intelligenz, insbesondere im Bereich der Large Language Models (LLMs), entwickelt sich rasant. Eine der jüngsten und vielversprechendsten Innovationen im Post-Training-Bereich ist die On-Policy Distillation (OPD). Diese Technik, die sich durch die Kombination von dichter Überwachung und einem lernenden Studentenmodell auszeichnet, hat das Potenzial, die Effizienz und Leistungsfähigkeit von LLMs maßgeblich zu beeinflussen. Als Senior Specialist Journalist und Analyst für Mindverse beleuchten wir die Funktionsweise, die Vorteile, die Herausforderungen und die zukünftigen Implikationen dieser Schlüsseltechnologie.

Die Grundlagen der On-Policy Distillation (OPD)

Im Kern ist OPD eine Methode zur Wissensübertragung von einem leistungsfähigeren "Lehrer"-Modell auf ein kleineres, effizienteres "Studenten"-Modell. Der entscheidende Unterschied zu traditionellen Distillationsmethoden liegt im "On-Policy"-Aspekt. Während herkömmliche Knowledge Distillation (KD) das Studentenmodell auf statischen, vom Lehrer generierten Datensätzen trainiert (Off-Policy), generiert das Studentenmodell bei OPD seine eigenen Trajektorien (Sequenzen von Tokens). Anschließend bewertet das Lehrermodell diese studentengenerierten Trajektorien und liefert ein dichtes, tokenbasiertes Feedback. Dieses Feedback ermöglicht es dem Studentenmodell, aus seinen eigenen Fehlern zu lernen und seine Politik dynamisch anzupassen, wodurch die sogenannte "Exposure Bias" reduziert wird. Exposure Bias tritt auf, wenn das Studentenmodell während des Trainings Zustände sieht, die es in der Inferenzphase selbst nie generieren würde, was zu sich akkumulierenden Fehlern führen kann.

Das Konzept lässt sich mit dem Erlernen eines komplexen Spiels vergleichen: Off-Policy-Training ähnelt dem Beobachten eines Großmeisters, der perfekte Züge macht. Man lernt zwar gute Strategien, aber man wird selten in genau die gleichen Situationen geraten wie der Großmeister. On-Policy-Training hingegen ist wie das Spielen einer Partie, bei der ein Trainer jeden einzelnen Zug bewertet und sofortiges, präzises Feedback gibt. Dies erlaubt es, die eigenen Fehler direkt zu korrigieren und sich an die eigenen Spielweisen anzupassen.

OPD im Vergleich zu anderen Post-Training-Methoden

Um die Relevanz von OPD vollständig zu erfassen, ist ein Vergleich mit bestehenden Post-Training-Paradigmen unerlässlich:

Supervised Fine-Tuning (SFT): SFT trainiert das Studentenmodell auf einem kuratierten Datensatz von Lehrer-generierten Beispielen. Es ist eine Off-Policy-Methode, die unter Exposure Bias leidet, da das Studentenmodell in seiner Inferenzphase oft von den Trainingsdaten abweichende Sequenzen generiert.
Reinforcement Learning from Human Feedback (RLHF) / Reinforcement Learning with Verifiable Rewards (RLVR): Diese Methoden trainieren das Studentenmodell ebenfalls On-Policy, indem sie Trajektorien vom Studentenmodell sampeln. Das Feedback ist jedoch oft spärlich und ergebnisbasiert (z.B. eine binäre Belohnung für eine korrekte Antwort auf Sequenzebene). Im Gegensatz dazu bietet OPD ein dichtes, kontinuierliches Feedback auf Token-Ebene, was eine präzisere Fehlerzuweisung und effizientere Lernsignale ermöglicht.

OPD schlägt eine Brücke zwischen diesen Ansätzen, indem es die On-Policy-Relevanz von RL mit dem dichten Belohnungssignal der Distillation kombiniert. Dies führt zu einer effizienteren und stabileren Anpassung des Studentenmodells, insbesondere bei komplexen Aufgaben wie mathematischem Denken oder Code-Generierung, bei denen eine einzelne frühe Fehlentscheidung eine ganze Trajektorie zunichtemachen kann.

Architektur und Signalquellen in OPD

Die Art und Weise, wie das Lehrersignal in OPD bereitgestellt wird, variiert erheblich und hat direkte Auswirkungen auf die Anwendbarkeit und Leistungsfähigkeit der Methode. Es lassen sich primär drei Kategorien unterscheiden:

White-Box-Distillation

Bei der White-Box-Distillation hat das Studentenmodell vollen Zugriff auf die Interna des Lehrermodells, insbesondere auf die Logits (die unnormalisierten Log-Wahrscheinlichkeiten der nächsten Tokens) an jeder Token-Position. Dies ermöglicht die dichteste Form der Überwachung, da der Student lernt, die gesamte Wahrscheinlichkeitsverteilung des Lehrers zu jedem Zeitpunkt nachzubilden. Beispiele hierfür sind GKD (Generalized Knowledge Distillation) und DistiLLM. Diese Methoden sind besonders effektiv, wenn Lehrer- und Studentenmodell innerhalb derselben Organisation eingesetzt werden, da sie eine enge Integration erfordern.

Black-Box-Distillation

Diese Kategorie ist relevant, wenn der Zugriff auf das Lehrermodell auf dessen Textausgaben über eine API beschränkt ist (z.B. bei proprietären Modellen wie GPT-4). Da keine Logits verfügbar sind, muss das Lehrersignal aus den generierten Texten abgeleitet werden. Methoden wie GAD (Generative Adversarial Distillation) oder OVD (On-Policy Verbal Distillation) nutzen hierbei Techniken wie die Abfrage des Lehrers nach präferenziellen Bewertungen von studentengenerierten Antworten oder die Verwendung eines Diskriminators, der zwischen Lehrer- und Studentenantworten unterscheidet. Rubric-based On-Policy Distillation (ROPD) ist ein weiterer Ansatz, der semantische Rubriken aus Lehrer- und Studentenantworten ableitet, um ein strukturiertes Feedback zu generieren, das auch bei eingeschränktem Zugriff wirksam ist.

Self-Distillation

Self-Distillation-Methoden eliminieren die Notwendigkeit eines externen Lehrermodells vollständig. Das Modell generiert seinen eigenen Trainingssignal, indem es Asymmetrien innerhalb seiner eigenen Struktur ausnutzt. Dies kann auf verschiedene Weisen geschehen:

Privileged Information (PI): Das Modell fungiert als Lehrer, indem es auf zusätzliche, während des Trainings verfügbare Kontextinformationen (z.B. die korrekte Antwort) konditioniert wird, die dem Studenten während der Inferenz nicht zur Verfügung stehen. OPSD (On-Policy Self-Distillation) ist ein Beispiel, bei dem das Modell gleichzeitig als Student (konditioniert nur auf die Frage) und als Lehrer (konditioniert auf Frage und Antwort) agiert.
Rollout-Diversität und Architektonisches Self-Training: Hierbei wird die inhärente Diversität der Modellgenerierungen genutzt. Methoden wie SSD (Embarrassingly Simple Self-Distillation) oder SDFT (Self-Distillation Enables Continual Learning) verwenden unterschiedliche Sampling-Temperaturen oder architektonische Mechanismen, um "stärkere" Versionen des Modells zu erzeugen, die dann als Lehrer für die "schwächere" Version dienen.
External Feedback: Diese Ansätze kombinieren Self-Distillation mit externen Signalen von Verifizierern oder Umgebungen. SD-ZERO beispielsweise wandelt spärliche Verifizierer-Signale in dichte Self-Supervision um, indem ein "Reviser" eine verbesserte Version der studentengenerierten Ausgabe erstellt.

Jede dieser Signalquellen bietet unterschiedliche Kompromisse zwischen Signaldichte, Autonomie und dem erforderlichen Rechenaufwand. White-Box-Methoden liefern die dichteste Überwachung, sind aber in ihrer Anwendbarkeit auf interne Systeme beschränkt. Black-Box-Methoden überwinden diese Einschränkung auf Kosten der Signaldichte. Self-Distillation bietet maximale Autonomie, ist aber durch die vorhandenen Fähigkeiten des Modells begrenzt, es sei denn, sie wird durch externe Verifikation ergänzt.

Trainingseffizienz und Stabilisierung

Die On-Policy-Generierung birgt intrinsische Herausforderungen für die Trainingseffizienz und -stabilität. Das Studentenmodell entwickelt sich ständig weiter, was dazu führen kann, dass ältere Rollouts veraltet sind. Zudem können bei schwierigen Prompts alle Rollouts fehlschlagen, was zu einem Zusammenbruch des Signal-Rausch-Verhältnisses (SNR) führt. Der Rechenaufwand für autoregressive Rollouts und die Bewertung durch den Lehrer ist ebenfalls erheblich. Um diesen Herausforderungen zu begegnen, wurden verschiedene Strategien entwickelt:

Token- und Sample-Gewichtung

Nicht jedes Lehrersignal ist gleichermaßen zuverlässig. Der "Flawed Prefix Trap" tritt auf, wenn der Student einen fehlerhaften Präfix generiert, auf den der Lehrer nicht trainiert wurde. Methoden wie TIP (Token Importance in On-Policy Distillation) oder SCOPE (Signal-Calibrated On-Policy Distillation Enhancement) filtern oder gewichten Token basierend auf ihrer Bedeutung oder der Zuverlässigkeit des Lehrersignals. Dies reduziert unnötigen Rechenaufwand für irrelevante oder fehlerhafte Token.

Curriculum-Lernen

Curriculum-Lernen passt die Schwierigkeit der Trainingsaufgaben dynamisch an die Fähigkeiten des Studenten an. PACED (Distillation and On-Policy Self-Distillation at the Frontier of Student Competence) schätzt die Schwierigkeit von Prompts und konzentriert das Training auf Aufgaben, die sich an der Grenze der Kompetenz des Studenten befinden ("Frontier Difficulty Sampling"). Dies verhindert, dass Rechenressourcen für zu einfache oder zu schwierige Aufgaben verschwendet werden. Ansätze wie TCOD (Temporal Curriculum in On-Policy Distillation) passen die Tiefe der Überwachung in Multi-Turn-Interaktionen an, um akkumulierende Fehler zu vermeiden.

Rechenoptimierung

Der hohe Rechenaufwand für die On-Policy-Generierung erfordert systemseitige Optimierungen:

Prefix Truncation (FOPD): Erkennt, dass nützliche Distillationssignale oft in den frühen Teilen einer Sequenz konzentriert sind und kürzt Rollouts, um den Rechenaufwand zu reduzieren.
Offline Teacher Caching (Lightning-OPD): Entkoppelt die Studentenoptimierung von der Lehrerinferenz, indem Lehrer-Log-Wahrscheinlichkeiten einmal vorab berechnet werden.
Asynchronous Generation-Training Decoupling (NPD): Trennt die Generierung von Studentenrollouts und die Gradienten-Updates, um Engpässe zu vermeiden und den Durchsatz zu erhöhen.
Speculative Knowledge Distillation (SKD): Passt Speculative Decoding an die Distillation an, um die Generierung von Kandidaten-Tokens zu beschleunigen, die dann vom Lehrer verifiziert werden.

Diese Optimierungen sind entscheidend, um OPD im industriellen Maßstab praktikabel zu machen und den Kostenunterschied zu Off-Policy-Methoden zu verringern.

Fehlermodi und Erfolgskriterien

Trotz der vielversprechenden Fortschritte ist OPD nicht ohne Fallstricke. Ein tiefes Verständnis der Fehlermodi ist entscheidend für die Entwicklung robuster und zuverlässiger Systeme:

Flawed Prefix Trap: Wenn der Student einen fehlerhaften Präfix generiert, ist die bedingte Verteilung des Lehrers für nachfolgende Token unzuverlässig, da der Lehrer auf solche Out-of-Distribution-Eingaben nicht trainiert wurde.
Extrapolation Cliff: Bei Reward-Extrapolation (z.B. in ExOPD mit einem Skalierungsfaktor > 1) kann es zu einem abrupten Absturz der Leistung kommen, wenn die Extrapolation zu aggressiv ist und das Modell von der formatgerechten Generierung abweicht.
Persistent High-Loss Tokens: Einige Token weisen auch nach intensivem OPD-Training noch hohe Verluste auf. Diese "Rock Tokens" repräsentieren oft strukturelle oder diskursive Elemente, die für die Argumentation des Studenten irrelevant sind.
Self-Play Saturation (Ouroboros-Problem): Bei der Self-Distillation kann sich das Studentenmodell selbst verstärken und in fehlerhaften Trajektorien fangen, wenn keine externen Signale zur Korrektur vorhanden sind. Dies führt zu einem Zusammenbruch des Hypothesenraums.
Calibration-Capability Gap: OPD kann zwar die Aufgabenleistung verbessern, aber gleichzeitig zu einer Überkonfidenz des Modells führen, wodurch es weniger zuverlässig seine eigenen Unsicherheiten einschätzen kann.
Agentic Collapse in Multi-Turn OPD: In Multi-Turn-Agenten-Szenarien kann die Lehrer-Überwachung mit zunehmender Gesprächsdauer instabil werden, was zu einem Verlust der Trajektorienstruktur und einer Abnahme der Leistung führt.

Erfolgreiche OPD-Implementierungen erfordern die Berücksichtigung dieser Fehlermodi. Zwei Hauptbedingungen für den Erfolg sind eine kompatible Denkweise zwischen Lehrer und Student (hohe Überlappung der Top-k-Token-Verteilungen) und die Bereitstellung von echt neuen Fähigkeiten durch den Lehrer, die über das bereits vom Studenten Erlernte hinausgehen. Diagnostische Checklisten helfen, den Nutzen von OPD zu bewerten, bevor erhebliche Rechenressourcen investiert werden.

Anwendungen, Systeme und neue Domänen

OPD hat sich von einem Forschungsthema zu einem integralen Bestandteil industrieller Post-Training-Pipelines entwickelt. Die Anwendungsmuster variieren je nach den spezifischen Anforderungen und Ressourcen:

Zweiphasige Distillationspipelines

Ein häufiges Muster ist die Kombination eines Off-Policy-Kaltstarts mit On-Policy-Verfeinerung. Qwen3 und Gemma 2 verwenden beispielsweise Off-Policy-Distillation, um eine grundlegende Kompetenz aufzubauen, bevor sie zu On-Policy-OPD übergehen, um Nuancen wie "Thinking Mode Fusion" zu erlernen. Dies ermöglicht es dem Studenten, sowohl direkte Antworten als auch komplexe Denkketten zu generieren.

OPD zur Modellkonsolidierung

OPD wird auch eingesetzt, um die Fähigkeiten mehrerer spezialisierter Experten in einem einzigen, effizienten Modell zu konsolidieren. DeepSeek-V4 ersetzt beispielsweise die gemischte RL-Phase durch Multi-Teacher-OPD, um über zehn domänenspezifische Experten in einem einzigen Modell zu vereinen. CoPD (Co-Evolving Policy Distillation) geht noch einen Schritt weiter, indem es die Expertentrainings mit bidirektionaler OPD verknüpft, um eine kontinuierliche Wissensaufnahme und konsistente Verhaltensmuster zu gewährleisten.

OPD für Multi-Budget-Reasoning

ORBIT (On-policy Exploration-Exploitation for Controllable Multi-Budget Reasoning) verwendet OPD, um Modelle zu trainieren, die je nach Aufgabenkomplexität unterschiedliche Rechenbudgets nutzen können. Dies ist besonders nützlich für Anwendungen, bei denen eine schnelle, aber weniger genaue Antwort genauso wichtig sein kann wie eine langsame, hochpräzise Antwort.

OPD in neuen Domänen

OPD findet zunehmend Anwendung in Bereichen jenseits der reinen Textgenerierung:

Multimodale LLMs (MLLMs): Methoden wie VOLD (Vision-Language Models via On-Policy Distillation) oder X-OPD (Cross-Modal On-Policy Distillation) übertragen Reasoning-Fähigkeiten von Text-LLMs auf Vision-Language-Modelle oder Speech-LLMs, um Kohärenz über verschiedene Modalitäten hinweg zu gewährleisten.
Agentische Systeme: OPD wird verwendet, um Agenten für komplexe Aufgaben wie die GUI-Steuerung (LiteGUI), Robotik (On-Policy Distillation of Language Models for Autonomous Vehicle Motion Planning) oder Proteindesign (ProteinOPD) zu trainieren.
Sicherheit und Ausrichtung: MSD (Multilingual Safety Alignment via Self-Distillation) nutzt OPD, um Sicherheitsausrichtung von High-Resource-Sprachen auf Low-Resource-Sprachen zu übertragen und so die Robustheit gegen Jailbreak-Angriffe zu verbessern.

Die Infrastruktur für OPD muss spezifische Anforderungen erfüllen, wie das Co-Hosting von Lehrer- und Studentenmodellen, der Transfer großer Logit-Tensoren und die Toleranz gegenüber Veralterung. Frameworks wie OpenRLHF passen ihre Architekturen an diese Anforderungen an.

Offene Probleme und zukünftige Richtungen

Trotz der beeindruckenden Fortschritte gibt es noch zahlreiche offene Fragen und Forschungsrichtungen:

Distillation Scaling Laws: Im Gegensatz zu den gut etablierten Skalierungsgesetzen für das Pre-Training fehlen diese noch für OPD. Die Entwicklung solcher Gesetze könnte die effizienteste Zuweisung von Rechenressourcen für Lehrergröße, Studentenmodell und On-Policy-Rollout-Budget leiten.
Uncertainty-Aware Feedback: Aktuelle Lehrer liefern Punkt-Schätzungen von Wahrscheinlichkeiten, ignorieren aber ihre eigene Unsicherheit. Ansätze, die die epistemische Unsicherheit des Lehrers berücksichtigen, könnten das Feedback gezielter gestalten und den "Flawed Prefix Trap" mindern.
Agent-Level, Continual und Lifelong Distillation: Die Skalierung von OPD auf Multi-Turn-Agenten, die über lange Zeithorizonte lernen und sich an verändernde Umgebungen anpassen müssen, ist eine große Herausforderung. Dies erfordert neue Mechanismen zur Kreditzuweisung, Umgang mit Nicht-Stationarität der Umgebung und Sicherheitsbeschränkungen.
Effizienzgrenzen: Der Rechenoverhead von On-Policy-Training bleibt ein Hindernis. Die Erforschung selektiver Lehrerinferenz, bei der nur informative studentengenerierte Sequenzen dichtes Lehrerfeedback erhalten, könnte erhebliche Einsparungen bringen.
Latent-Space und Cross-Modal Distillation: Die Distillation in einem gemeinsamen latenten Raum, der den Vokabular-Engpass umgeht und die Distillation zwischen architektonisch unterschiedlichen Modellen ermöglicht, ist ein vielversprechender, aber unerforschter Bereich.
Datenschutz und Bewertungsmethodik: Mit zunehmender Leistungsfähigkeit von OPD werden Fragen des Datenschutzes und der Zuverlässigkeit von Bewertungsmetriken wichtiger. Differenziell-private Distillation und verbesserte Evaluierungsprotokolle, die den Verlust von Fähigkeiten berücksichtigen, sind notwendig.
Diagnosetools für Fehlermodi: Es bedarf systematischer Tools zur Erkennung und Quantifizierung von Fehlermodi während des Trainings, um proaktive Interventionen zu ermöglichen.
Cross-Architecture Scalability: Die Übertragung von Wissen zwischen Modellen mit massiv unterschiedlichen Architekturen und Kapazitäten bleibt eine Herausforderung, die nicht-lineare, hierarchische Alignment-Mechanismen erfordern könnte.
Vereinheitlichte Planung von OPD und RLVR: Die Integration von OPD und RLVR in einem einzigen Framework, das entscheidet, wann zwischen Lehrer-Imitation und Exploration gewechselt werden soll, ist ein noch offenes Problem.
Self-Improving Systems: Das ultimative Ziel ist die Entwicklung von Systemen, die sich mit begrenzter menschlicher Intervention kontinuierlich selbst verbessern können, indem sie ihr eigenes Verhalten generieren, bewerten und verfeinern.

Fazit

On-Policy Distillation hat sich als eine transformative Post-Training-Technik für Large Language Models etabliert. Durch die Kombination von dichter, tokenbasierter Überwachung und der Generierung von Trajektorien durch das Studentenmodell adressiert OPD die entscheidende Herausforderung der Exposure Bias und ermöglicht eine effizientere Wissensübertragung als traditionelle Methoden. Die Vielfalt der Ansätze, von White-Box- über Black-Box- bis hin zu Self-Distillation-Methoden, zeigt die Flexibilität und Anpassungsfähigkeit von OPD an unterschiedliche Szenarien und Ressourcenbeschränkungen. Während die Technologie weiter reift, werden die Überwindung der identifizierten Fehlermodi, die Verbesserung der Trainingseffizienz und die Erweiterung auf neue Domänen wie multimodale Agenten entscheidend sein. Die Konvergenz von Distillation, Reinforcement Learning und Self-Play deutet auf eine Zukunft hin, in der LLMs weniger als statische Artefakte, sondern vielmehr als kontinuierlich lernende und sich selbst verbessernde Systeme fungieren.

Für Unternehmen wie Mindverse, die an der Spitze der KI-Entwicklung stehen, bietet OPD einen Weg zu leistungsfähigeren, kosteneffizienteren und spezialisierteren KI-Modellen. Die Möglichkeit, komplexe Reasoning-Fähigkeiten in kleinere Modelle zu destillieren, demokratisiert den Zugang zu fortgeschrittenen KI-Funktionen und ermöglicht maßgeschneiderte Lösungen für spezifische Geschäftsanforderungen. Die kontinuierliche Forschung und Entwicklung in diesem Bereich wird die Grenzen dessen, was mit KI möglich ist, weiter verschieben.

Bibliographie

- A. Afsharrad, A. Abedsoltan, A. Moradipari, and S. Lall (2026) On-Policy Distillation of Language Models for Autonomous Vehicle Motion Planning. arXiv preprint arXiv:2604.07944. - R. Agarwal, N. Vieillard, Y. Zhou, P. Stanczyk, S. Ramos, M. Geist, and O. Bachem (2024) On-Policy Distillation of Language Models: Learning from Self-Generated Mistakes. Proceedings of ICLR. - M. Armandpour, F. Ilhan, D. Harrison, A. Jaiswal, D. N. M. Hoang, F. Faghri, Y. Zhang, M. Cho, and M. Farajtabar (2026) Unmasking on-policy distillation: where it helps, where it hurts, and why. arXiv preprint arXiv:2605.10889v1. - N. Boizard, K. E. Haddad, C. Hudelot, and P. Colombo (2025) Towards Cross-Tokenizer Distillation: the Universal Logit Distillation Loss for LLMs. Transactions on Machine Learning Research. - W. Bousselham, H. Kuehne, and C. Schmid (2025) VOLD: Reasoning Transfer from LLMs to Vision-Language Models via On-Policy Distillation. arXiv preprint arXiv:2510.23497. - D. Busbridge, A. Shidani, F. Weers, J. Ramapuram, E. Littwin, and R. Webb (2025) Distillation Scaling Laws. In Proceedings of the International Conference on Machine Learning (ICML). - Y. Cai and Y. Yuan (2026) $\mathcal{X}$-KD: General Experiential Knowledge Distillation for Large Language Models. arXiv preprint arXiv:2602.12674. - Y. Cai, D. Cao, L. Lin, C. Luo, X. Xu, K. Yang, W. Liu, S. Yang, T. Zhao, G. Sun, G. Liu, and J. Fang (2026) Learning to foresee: unveiling the unlocking efficiency of on-policy distillation. arXiv preprint arXiv:2605.11739v1. - D. Cao, D. Fu, H. Yu, S. Zheng, X. Tan, and T. Jin (2026) X-OPD: Cross-Modal On-Policy Distillation for Capability Alignment in Speech LLMs. arXiv preprint arXiv:2603.24596. - Y. Cao, Y. Kang, Z. Xing, and R. Jiang (2025) Delta Knowledge Distillation for Large Language Models. arXiv preprint arXiv:2509.14526. - S. Cha and K. Cho (2025) Why Knowledge Distillation Works in Generative Models: A Minimal Working Explanation. Advances in Neural Information Processing Systems (NeurIPS). - H. Chen, N. Razin, K. Narasimhan, and D. Chen (2025) Retaining by Doing: The Role of On-Policy Data in Mitigating Forgetting. arXiv preprint arXiv:2510.18874. - K. Chen, Z. Liu, X. Tao, H. Liu, Y. Liu, X. Fu, S. Wu, S. Zhang, D. Tu, L. Kong, R. Liu, and H. Li (2026a) Self-distilled trajectory-aware boltzmann modeling: bridging the training-inference discrepancy in diffusion language models. arXiv preprint arXiv:2605.11854v1. - X. Chen, Z. Yin, S. He, B. Huang, S. Lei, P. Shi, K. Cai, B. Chen, B. Liu, Z. Kang, C. Huang, Y. Zhang, W. Li, R. Ge, Y. Wang, T. Fang, T. Xu, Y. Cong, M. Jin, G. Li, X. Wu, L. Liu, Z. He, A. Li, Y. Teng, X. Tan, D. Liu, J. Shao, C. Lu, J. He, J. Li, C. Song, J. Xu, F. Song, S. Wang, J. Qian, J. Hou, X. Wang, Y. Wang, H. Wang, and X. Hu (2026b) Safactory: a scalable agentic infrastructure for training trustworthy autonomous intelligence. arXiv preprint arXiv:2605.06230v2. - Z. Chen, Y. Deng, H. Yuan, K. Ji, and Q. Gu (2024) Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models. Proceedings of ICML. - DeepSeek-AI, D. Guo, D. Yang, H. Zhang, J. Song, P. Wang, Q. Zhu, R. Xu, R. Zhang, S. Ma, X. Bi, X. Zhang, X. Yu, Y. Wu, Z. F. Wu, Z. Gou, Z. Shao, Z. Li, Z. Gao, A. Liu, B. Xue, B. Wang, B. Wu, B. Feng, C. Lu, C. Zhao, C. Deng, C. Zhang, C. Ruan, D. Dai, D. Chen, D. Ji, E. Li, F. Lin, F. Dai, F. Luo, G. Hao, G. Chen, G. Li, H. Zhang, H. Bao, H. Xu, H. Wang, H. Ding, H. Xin, H. Gao, H. Qu, H. Li, J. Guo, J. Li, J. Wang, J. Chen, J. Yuan, J. Qiu, J. Li, J. L. Cai, J. Ni, J. Liang, J. Chen, K. Dong, K. Hu, K. Gao, K. Guan, K. Huang, K. Yu, L. Wang, L. Zhang, L. Zhao, L. Wang, L. Zhang, L. Xu, L. Xia, M. Zhang, M. Zhang, M. Tang, M. Li, M. Wang, M. Li, N. Tian, P. Huang, P. Zhang, Q. Wang, Q. Chen, Q. Du, R. Ge, R. Zhang, R. Pan, R. Wang, R. J. Chen, R. L. Jin, R. Chen, S. Lu, S. Zhou, S. Chen, S. Ye, S. Wang, S. Yu, S. Zhou, S. Pan, S. S. Li, S. Zhou, S. Wu, S. Ye, T. Yun, T. Pei, T. Sun, T. Wang, W. Zeng, W. Zhao, W. Liu, W. Liang, W. Gao, W. Yu, W. Zhang, W. L. Xiao, W. An, X. Liu, X. Wang, X. Chen, X. Nie, X. Cheng, X. Liu, X. Xie, X. Liu, X. Yang, X. Li, X. Su, X. Lin, X. Q. Li, X. Jin, X. Shen, X. Chen, X. Sun, X. Wang, X. Song, X. Zhou, X. Wang, X. Shan, Y. K. Li, Y. Q. Wang, Y. X. Wei, Y. Zhang, Y. Xu, Y. Li, Y. Zhao, Y. Sun, Y. Wang, Y. Yu, Y. Zhang, Y. Shi, Y. Xiong, Y. He, Y. Piao, Y. Wang, Y. Tan, Y. Ma, Y. Liu, Y. Guo, Y. Ou, Y. Wang, Y. Gong, Y. Zou, Y. He, Y. Xiong, Y. Luo, Y. You, Y. Liu, Y. Zhou, Y. X. Zhu, Y. Xu, Y. Huang, Y. Li, Y. Zheng, Y. Zhu, Y. Ma, Y. Tang, Y. Zha, Y. Yan, Z. Z. Ren, Z. Ren, Z. Sha, Z. Fu, Z. Xu, Z. Xie, Z. Zhang, Z. Hao, Z. Ma, Z. Yan, Z. Wu, Z. Gu, Z. Zhu, Z. Liu, Z. Li, Z. Xie, Z. Song, Z. Pan, Z. Huang, Z. Xu, Z. Zhang, and Z. Zhang (2025) DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv preprint arXiv:2501.12948. - DeepSeek-AI (2026) DeepSeek-V4: towards highly efficient million-token context intelligence. Technical report DeepSeek. - K. Ding (2026) HDPO: Hybrid Distillation Policy Optimization via Privileged Self-Distillation. arXiv preprint arXiv:2603.23871. - J. Fan, G. Luo, M. Bowling, and L. Mou (2025) KETCHUP: K-Step Return Estimation for Sequential Knowledge Distillation. arXiv preprint arXiv:2504.19024. - J. Fang, Z. Hong, M. Zheng, M. Song, G. Li, H. Jiang, D. Zhang, H. Guo, X. Wang, and T. Chua (2026) Rubric-based On-policy Distillation. arXiv preprint arXiv:2605.07396. - Y. Fu, H. Huang, K. Jiang, J. Liu, Z. Jiang, Y. Zhu, and D. Zhao (2026) Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes. arXiv preprint arXiv:2603.25562. - Gemma Team, M. Riviere, S. Pathak, P. G. Sessa, C. Hardin, S. Bhupatiraju, L. Hussenot, T. Mesnard, B. Shahriari, A. Ramé, J. Ferret, P. Liu, P. Tafti, A. Friesen, M. Casbon, S. Ramos, R. Kumar, C. L. Lan, S. Jerome, A. Tsitsulin, N. Vieillard, P. Stanczyk, S. Girgin, N. Momchev, M. Hoffman, S. Thakoor, J. Grill, B. Neyshabur, O. Bachem, A. Walton, A. Severyn, A. Parrish, A. Ahmad, A. Hutchison, A. Abdagic, A. Carl, A. Shen, A. Brock, A. Coenen, A. Laforge, A. Paterson, B. Bastian, B. Piot, B. Wu, B. Royal, C. Chen, C. Kumar, C. Perry, C. Welty, C. A. Choquette-Choo, D. Sinopalnikov, D. Weinberger, D. Vijaykumar, D. Rogozińska, D. Herbison, E. Bandy, E. Wang, E. Noland, E. Moreira, E. Senter, E. Eltyshev, F. Visin, G. Rasskin, G. Wei, G. Cameron, G. Martins, H. Hashemi, H. Klimczak-Plucińska, H. Batra, H. Dhand, I. Nardini, J. Mein, J. Zhou, J. Svensson, J. Stanway, J. Chan, J. P. Zhou, J. Carrasqueira, J. Iljazi, J. Becker, J. Fernandez, J. van Amersfoort, J. Gordon, J. Lipschultz, J. Newlan, J. Ji, K. Mohamed, K. Badola, K. Black, K. Millican, K. McDonell, K. Nguyen, K. Sodhia, K. Greene, L. L. Sjoesund, L. Usui, L. Sifre, L. Heuermann, L. Lago, L. McNealus, L. B. Soares, L. Kilpatrick, L. Dixon, L. Martins, M. Reid, M. Singh, M. Iverson, M. Görner, M. Velloso, M. Wirth, M. Davidow, M. Miller, M. Rahtz, M. Watson, M. Risdal, M. Kazemi, M. Moynihan, M. Zhang, M. Kahng, M. Park, M. Rahman, M. Khatwani, N. Dao, N. Bardoliwalla, N. Devanathan, N. Dumai, N. Chauhan, O. Wahltinez, P. Botarda, P. Barnes, P. Barham, P. Michel, P. Jin, P. Georgiev, P. Culliton, P. Kuppala, R. Comanescu, R. Merhej, R. Jana, R. A. Rokni, R. Agarwal, R. Mullins, S. Saadat, S. M. Carthy, S. Cogan, S. Perrin, S. M. R. Arnold, S. Krause, S. Dai, S. Garg, S. Sheth, S. Ronstrom, S. Chan, T. Jordan, T. Yu, T. Eccles, T. Hennigan, T. Kocisky, T. Doshi, V. Jain, V. Yadav, V. Meshram, V. Dharmadhikari, W. Barkley, W. Wei, W. Ye, W. Han, W. Kwon, X. Xu, Z. Shen, Z. Gong, Z. Wei, V. Cotruta, P. Kirk, A. Rao, M. Giang, L. Peran, T. Warkentin, E. Collins, J. Barral, Z. Ghahramani, R. Hadsell, D. Sculley, J. Banks, A. Dragan, S. Petrov, O. Vinyals, J. Dean, D. Hassabis, K. Kavukcuoglu, C. Farabet, E. Buchatskaya, S. Borgeaud, N. Fiedel, A. Joulin, K. Kenealy, R. Dadashi, and A. Andreev (2024) Gemma 2: Improving Open Language Models at a Practical Size. arXiv preprint arXiv:2408.00118. - N. Gu, C. Yang, Q. Si, C. Qin, D. Yao, P. Fu, Z. Lin, W. Wang, N. Duan, and J. Wang (2026) Co-Evolving Policy Distillation. arXiv preprint arXiv:2604.27083. - Y. Gu, L. Dong, F. Wei, and M. Huang (2024) MiniLLM: Knowledge Distillation of Large Language Models. Proceedings of ICLR. - Y. Gu, H. Zhou, F. Meng, J. Zhou, and M. Huang (2025) MiniPLM: Knowledge Distillation for Pre-Training Language Models. Proceedings of ICLR. - A. Gudibande, E. Wallace, C. Snell, X. Geng, H. Liu, P. Abbeel, S. Levine, and D. Song (2023) The False Promise of Imitating Proprietary LLMs. arXiv preprint arXiv:2305.15717. - Z. Han, T. Zhang, H. Wang, and Y. Sun (2026) Adaptive teacher exposure for self-distillation in llm reasoning. arXiv preprint arXiv:2605.11458v1. - Y. He, S. Kaur, A. Bhaskar, Y. Yang, J. Liu, N. Ri, L. Fowl, A. Panigrahi, D. Chen, and S. Arora (2026) Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision. arXiv preprint arXiv:2604.12002. - G. Hinton, O. Vinyals, and J. Dean (2015) Distilling the knowledge in a neural network. arXiv preprint arXiv:1503.02531. - W. Hou, S. Peng, W. Wang, Z. Ruan, Y. Zhang, Z. Zhou, M. Gao, Y. Chen, K. Wang, H. Yang, C. Zhang, Z. Tian, H. Hu, Y. Yang, F. Wu, and H. Fan (2026) Uni-opd: unifying on-policy distillation with a dual-perspective recipe. arXiv preprint arXiv:2605.03677. - C. Hsieh, C. Li, C. Yeh, H. Nakhost, Y. Fujii, A. Ratner, R. Krishna, C. Lee, and T. Pfister (2023) Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes. Findings of ACL. - J. Hu, X. Tao, W. Hou, Q. Liu, Z. Feng, Y. Xu, Q. Ye, Q. Li, Z. Li, and S. Zhang (2024) OpenRLHF: an easy-to-use, scalable and high-performance RLHF framework. arXiv preprint arXiv:2405.11143. - J. Hu, D. Zhu, X. Luo, D. Zhang, S. He, Y. Lei, H. Zheng, S. Feng, J. He, Y. Sun, H. Wu, and H. Wang (2026) CORD: Bridging the Audio-Text Reasoning Gap via Weighted On-policy Cross-modal Distillation. arXiv preprint arXiv:2601.16547. - H. Huang, J. Song, Y. Zhang, and P. Ren (2025) SelecTKD: Selective Token-Weighted Knowledge Distillation for LLMs. arXiv preprint arXiv:2510.24021. - J. Hübotter, F. Lübeck, L. Behric, A. Baumann, M. Bagatella, D. Marta, I. Hakimi, I. Shenfeld, T. K. Buening, C. Guestrin, and A. Krause (2026) Reinforcement Learning via Self-Distillation. arXiv preprint arXiv:2601.20802. - I. Jang, J. Yeom, J. Yeo, H. Lim, and T. Kim (2026) Stable On-Policy Distillation through Adaptive Target Reformulation. In Findings of ACL. - M. Jeong (2026) Healthcare AI GYM for medical agents. arXiv preprint arXiv:2605.02943. - N. Jia, H. Yang, X. Ma, J. Lian, S. Zhang, W. Zhang, K. Zeng, X. Cai, and Z. Sun (2026) Asymmetric On-Policy Distillation: Bridging Exploitation and Imitation at the Token Level. arXiv preprint arXiv:2605.06387. - Y. Jiang, C. Chan, M. Chen, and W. Wang (2023) Lion: Adversarial Distillation of Proprietary Large Language Models. Proceedings of EMNLP. - Y. Jiang, R. Li, S. R. Dipta, D. Li, and Z. Yang (2026) Cornerstones or stumbling blocks? deciphering the rock tokens in on-policy distillation. arXiv preprint arXiv:2605.09253v1. - W. Jin, T. Min, Y. Yang, S. R. Kadhe, Y. Zhou, D. Wei, N. Baracaldo, and K. Lee (2026a) Entropy-Aware On-Policy Distillation of Language Models. arXiv preprint arXiv:2603.07079. - Y. Jin, Y. Wang, L. Fu, Y. Xiao, Y. Luo, H. Liu, B. A. Prakash, J. Hester, J. Wang, and S. Kumar (2026b) UniSD: Towards a Unified Self-Distillation Framework for Large Language Models. arXiv preprint arXiv:2605.06597. - S. Jung, S. Yoon, D. Kim, and H. Lee (2025) ToDi: Token-wise Distillation via Fine-Grained Divergence Control. In Proceedings of EMNLP. - J. Kaplan, S. McCandlish, T. Henighan, T. B. Brown, B. Chess, R. Child, S. Gray, A. Radford, J. Wu, and D. Amodei (2020) Scaling laws for neural language models. arXiv preprint arXiv:2001.08361. - J. Ke, Y. Huang, J. Lei, Z. Cai, X. Peng, and B. Chang (2026) Respecting self-uncertainty in on-policy self-distillation for efficient LLM reasoning. arXiv preprint arXiv:2605.13255. - F. Khadem, S. Mousavi, Y. Fang, and Y. Liu (2026) DP-OPD: Differentially Private On-Policy Distillation for Language Models. arXiv preprint arXiv:2604.04461. - G. Kim, D. Jang, and E. Yang (2024) PromptKD: Distilling Student-Friendly Knowledge for Generative Language Models via Prompt Tuning. In Findings of EMNLP. - J. Kim and D. Lee (2026) OPSD Compresses What RLVR Teaches: A Post-RL Compaction Stage for Reasoning Models. arXiv preprint arXiv:2605.06188. - J. Kim, J. Jeon, D. Li, and Y. Yang (2026a) Rebellious Student: Reversing Teacher Signals for Reasoning Exploration with Self-Distilled RLVR. arXiv preprint arXiv:2605.10781. - J. Kim, X. Luo, M. Kim, S. Lee, D. Kim, J. Jeon, D. Li, and Y. Yang (2026b) Why Does Self-Distillation (Sometimes) Degrade the Reasoning Capability of LLMs?. arXiv preprint arXiv:2603.24472. - M. Kim and S. J. Baek (2026) Explain in Your Own Words: Improving Reasoning via Token-Selective Dual Knowledge Distillation. Proceedings of ICLR. - Y. Kim, D. Shin, M. Kang, B. Na, and I. Moon (2026c) Distillation of Large Language Models via Concrete Score Matching. In International Conference on Learning Representations (ICLR). - Y. Kim and A. M. Rush (2016) Sequence-level knowledge distillation. In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pp. 1317–1327. - J. Kirchenbauer, A. Hans, B. Bartoldson, M. Goldblum, A. Panda, and T. Goldstein (2026) Multi-Token Prediction via Self-Distillation. arXiv preprint arXiv:2602.06019. - J. Kirkpatrick, R. Pascanu, N. Rabinowitz, J. Veness, G. Desjardins, A. A. Rusu, K. Milan, J. Quan, T. Ramalho, A. Grabska-Barwinska, et al. (2017) Overcoming catastrophic forgetting in neural networks. Proceedings of the National Academy of Sciences 114 (13), pp. 3521–3526. - J. Ko, S. Abdali, Y. J. Kim, T. Chen, and P. Cameron (2026) Scaling Reasoning Efficiently via Relaxed On-Policy Distillation. arXiv preprint arXiv:2603.11137. - J. Ko, T. Chen, S. Kim, T. Ding, L. Liang, I. Zharkov, and S. Yun (2025) DistiLLM-2: A Contrastive Approach Boosts the Distillation of LLMs. In Proceedings of ICML. - J. Ko, S. Kim, T. Chen, and S. Yun (2024) DistiLLM: Towards Streamlined Distillation for Large Language Models. Proceedings of ICML. - A. Kumar, S. Sanghavi, and P. Das (2026) Test-time speculation. arXiv preprint arXiv:2605.09329v1. - S. M. Kwon, Z. Sun, A. T. Suresh, H. Jain, and S. Kumar (2026) CoDistill-grpo: a co-distillation recipe for efficient group relative policy optimization. arXiv preprint arXiv:2605.08873v1. - W. Kwon, Z. Li, S. Zhuang, Y. Sheng, L. Zheng, C. H. Yu, J. Gonzalez, H. Zhang, and I. Stoica (2023) Efficient memory management for large language model serving with PagedAttention. In Proceedings of the ACM SIGOPS 29th Symposium on Operating Systems Principles (SOSP). - C. Li, B. Yang, Z. Li, C. Zhao, J. Li, H. Su, Q. Liu, and T. Yu (2026a) Revisiting DAgger in the era of LLM-agents. arXiv preprint arXiv:2605.12913. - F. Li, H. Zhang, H. Huang, J. Wang, J. Hao, K. Yuan, M. Li, M. Zhang, P. Xu, W. Zhuang, Y. Shao, Z. Feng, C. Tang, C. Wang, C. Tong, F. Yang, G. Xiong, H. Gao, H. Gao, H. Wang, H. Liu, H. Sun, J. Li, J. Chang, J. Du, J. Peng, L. Cui, M. Jing, M. Wu, S. Yan, S. Qi, S. Xu, W. Zhao, X. Sun, X. Xie, Y. Wang, Y. Xia, Y. Cui, Y. Chen, Y. Wang, Y. Shi, Z. Shen, Z. Wang, M. Sun, L. Ye, and B. Chen (2026b) KAT-Coder-V2 Technical Report. arXiv preprint arXiv:2603.27703. - G. Li, T. Yang, J. Fang, M. Song, M. Zheng, H. Guo, D. Zhang, J. Wang, and T. Chua (2026c) Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing. arXiv preprint arXiv:2604.02288. - G. Li, J. Chen, Y. Xu, X. Zhang, and Y. Lu (2026d) HyperEyes: dual-grained efficiency-aware reinforcement learning for parallel multimodal search agents. arXiv preprint arXiv:2605.07177v2. - J. Li, H. Yin, H. Xu, B. Xu, W. Tan, Z. He, J. Ju, Z. Luo, and J. Luan (2026e) Video-OPD: Efficient Post-Training of Multimodal Large Language Models for Temporal Video Grounding via On-Policy Distillation. arXiv preprint arXiv:2602.02994. - S. Li, J. Yu, Z. Li, B. Zhang, R. Azad, S. Khan, and F. S. Khan (2026f) GEAR: granularity-adaptive advantage reweighting for LLM agents via self-distillation. arXiv preprint arXiv:2605.11853. - X. Li, H. Jiang, A. Wang, Y. Zhang, and C. Yuen (2026g) The extrapolation cliff in on-policy distillation of near-deterministic structured outputs. arXiv preprint arXiv:2605.08737v1. - Y. Li, E. Nijkamp, S. Yavuz, and S. R. Joty (2026h) Learning from language feedback via variational policy distillation. arXiv preprint arXiv:2605.15113. - Y. Li, Y. Zuo, B. He, J. Zhang, C. Xiao, C. Qian, T. Yu, H. Gao, W. Yang, Z. Liu, and N. Ding (2026i) Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe. arXiv preprint arXiv:2604.13016. - Y. Li, Z. Li, and J. Liu (2025) A Note on Hybrid Online Reinforcement and Imitation Learning for LLMs: Formulations and Algorithms. arXiv preprint arXiv:2512.23097. - K. Liang, C. Bai, X. Xu, C. Tang, S. Lee, W. Liu, S. Yang, and Y. Wu (2026) ORBIT: On-policy Exploration-Exploitation for Controllable Multi-Budget Reasoning. arXiv preprint arXiv:2601.08310. - P. Liang, R. Bommasani, T. Lee, D. Tsipras, D. Soylu, M. Yasunaga, Y. Zhang, D. Narayanan, Y. Wu, A. Kumar, B. Newman, B. Yuan, B. Yan, C. Zhang, C. Cosgrove, C. D. Manning, C. Ré, D. Acosta-Navas, D. A. Hudson, E. Zelikman, E. Durmus, F. Ladhak, F. Rong, H. Ren, H. Yao, J. Wang, K. Santhanam, L. Orr, L. Zheng, M. Yuksekgonul, M. Suzgun, N. Kim, N. Guha, N. Chatterji, O. Khattab, P. Henderson, Q. Huang, R. Chi, S. M. Xie, S. Santurkar, S. Ganguli, T. Hashimoto, T. Icard, T. Zhang, V. Chaudhary, W. Wang, X. Li, Y. Mai, Y. Zhang, and Y. Koreeda (2023) Holistic evaluation of language models. Transactions on Machine Learning Research. - W. Liao, L. Wu, L. Zhao, S. Xu, and S. Fujimura (2026) IRIS: Interpolative Rényi Iterative Self-play for Large Language Model Fine-Tuning. arXiv preprint arXiv:2604.20933. - H. Lightman, V. Kosaraju, Y. Burda, H. Edwards, B. Baker, T. Lee, J. Leike, J. Schulman, I. Sutskever, and K. Cobbe (2024) Let’s Verify Step by Step. Proceedings of ICLR. - H. Lin, K. Lv, X. Jiang, J. Tian, Z. Du, J. Ding, Q. Zhang, and H. Jin (2026) VISD: Enhancing Video Reasoning via Structured Self-Distillation. arXiv preprint arXiv:2605.06094. - K. Liu, R. Xu, Y. Zhang, S. Mao, L. Qu, S. Shi, and Z. Deng (2026a) Prefix teach, suffix fade: local teachability collapse in strong-to-weak on-policy distillation. arXiv preprint arXiv:2605.13643. - X. Liu, K. Jiao, C. Xiao, R. Zhao, J. Ruan, B. Li, J. Liu, Q. Wang, X. Chen, J. Wang, T. Xiao, and J. Zhu (2026b) Teacher-guided policy optimization for LLM distillation. arXiv preprint arXiv:2605.13230. - Y. Liu, R. Zhao, M. A. Hedderich, and H. Schütze (2026c) Crosslingual on-policy self-distillation for multilingual reasoning. arXiv preprint arXiv:2605.09548v1. - K. Lu and Thinking Machines Lab (2025) On-policy distillation. Note: Thinking Machines Lab: Connectionismdoi: 10.64434/tml.20251026. - Z. Lu, Z. Yao, Z. Han, Z. Wang, J. Wu, Q. Gu, X. Cai, W. Lu, J. Xiao, Y. Zhuang, and Y. Shen (2026) Self-distilled agentic reinforcement learning. arXiv preprint arXiv:2605.15155. - F. Luo, Y. Chuang, G. Wang, Z. Xu, X. Han, T. Zhang, and V. Braverman (2026) Demystifying OPD: Length Inflation and Stabilization Strategies for Large Language Models. arXiv preprint arXiv:2604.08527. - Y. Lyu, C. Wang, J. Huang, and T. Xu (2025) From Correction to Mastery: Reinforced Distillation of Large Language Model Agents. arXiv preprint arXiv:2509.14257. - E. Mendes, J. Park, and A. Ritter (2026) Didactic to Constructive: Turning Expert Solutions into Learnable Reasoning. arXiv preprint arXiv:2602.02405. - P. Mitra and S. Ulukus (2025) Semantic Soft Bootstrapping: Long Context Reasoning in LLMs without Reinforcement Learning. arXiv preprint arXiv:2512.05105. - NVIDIA (2024) TensorRT-LLM: high-performance inference framework for large language models. - M. Oh, S. Song, G. Choi, Y. Choi, and Y. Jo (2026) KL for a KL: On-Policy Distillation with Control Variate Baseline. arXiv preprint arXiv:2605.07865. - E. Penaloza, D. Vattikonda, N. Gontier, A. Lacoste, L. Charlin, and M. Caccia (2026) Privileged Information Distillation for Language Models. arXiv preprint arXiv:2602.04942. - J. Peng, M. Wang, H. Cai, Y. Li, K. Zhang, S. Wang, D. Yin, and X. Zhao (2025) AdaSwitch: Balancing Exploration and Guidance in Knowledge Distillation via Adaptive Switching. arXiv preprint arXiv:2510.07842. - R. Qin, Q. Wang, D. Liu, Q. Li, Z. Wei, and W. Shen (2026) Multilingual Safety Alignment via Self-Distillation. arXiv preprint arXiv:2605.02971. - M. M. Ramos, D. M. Alves, and A. F. T. Martins (2026) Combining on-policy optimization and distillation for long-context reasoning in large language models. arXiv preprint arXiv:2605.12227v1. - M. Rang, Z. Bi, H. Zhou, K. Han, X. Wang, A. Xiao, X. Chen, Y. Wang, and H. Chen (2026) Near-Policy: Accelerating On-Policy Distillation via Asynchronous Generation and Selective Packing. arXiv preprint arXiv:2605.05940. - S. Ross, G. J. Gordon, and J. A. Bagnell (2011) A reduction of imitation learning and structured prediction to no-regret online learning. In Proceedings of the 14th International Conference on Artificial Intelligence and Statistics, pp. 627–635. - A. RRV, J. Dineen, D. Handa, M. N. Uddin, M. Parmar, C. Baral, and B. Zhou (2025) ThinkTuning: Instilling Cognitive Reflections without Distillation. In Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing (EMNLP). - H. Sang, Y. Xu, Z. Zhou, R. He, Z. Wang, and J. Sun (2026) CRISP: Compressed Reasoning via Iterative Self-Policy Distillation. arXiv preprint arXiv:2603.05433. - G. Shen, X. Cheng, C. Zhao, L. Huang, J. Li, D. Zhao, and X. Yu (2026a) Anti-self-distillation for reasoning rl via pointwise mutual information. arXiv preprint arXiv:2605.11609v1. - G. Shen, L. Huang, X. Cheng, C. Zhao, J. Li, D. Zhao, and X. Yu (2026b) From generic correlation to input-specific credit in on-policy self distillation. arXiv preprint arXiv:2605.11613v1. - I. Shenfeld, M. Damani, J. Hübotter, and P. Agrawal (2026) Self-Distillation Enables Continual Learning. arXiv preprint arXiv:2601.19897. - G. Sheng, C. Cao, Z. Gao, et al. (2024) HybridFlow: a flexible and efficient RLHF framework. arXiv preprint arXiv:2409.19256. - M. Shing, K. Misaki, H. Bao, S. Yokoi, and T. Akiba (2025) TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models. Proceedings of ICLR. - A. Singh, V. Vaddina, and D. Birru (2025) ORPO-Distill: Mixed-Policy Preference Optimization for Cross-Architecture LLM Distillation. NeurIPS Workshop on Efficient Reasoning. - Y. Song, L. Chen, F. Tajwar, R. Munos, D. Pathak, J. A. Bagnell, A. Singh, and A. Zanette (2026) Expanding the Capabilities of Reinforcement Learning via Text Feedback. arXiv preprint arXiv:2602.02482. - A. Stein, F. Huang, and T. Goldstein (2026) GATES: Self-Distillation under Privileged Context with Consensus Gating. arXiv preprint arXiv:2602.20574. - J. Sun, M. Zheng, M. Song, Q. Zhong, Y. Cheng, B. Feng, P. Liu, J. Fang, and X. Wang (2026) SimCT: Recovering Lost Supervision for Cross-Tokenizer On-Policy Distillation. arXiv preprint arXiv:2605.07711. - Z. Tan and Y. Hong (2026) PAINT: Partial-Solution Adaptive Interpolated Training for Self-Distilled Reasoners. arXiv preprint arXiv:2604.26573. - Tencent Robotics X, HY Vision Team, X. Yu, Z. Liu, Z. Wang, H. Zhang, Y. Rao, F. Liu, Y. Zhang, R. Zhao, O. Wang, Y. Liang, H. Lin, M. Wang, Y. Dong, K. Cheng, B. Ni, R. Huang, H. Hu, Z. Zhang, Linus, and S. Yao (2026) HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents. arXiv preprint arXiv:2604.07430. - H. Wang, G. Wang, H. Xiao, Y. Zhou, Y. Pan, J. Wang, K. Xu, Y. Wen, X. Ruan, X. Chen, and H. Qi (2026a) Skill-SD: Skill-Conditioned Self-Distillation for Multi-turn LLM Agents. arXiv preprint arXiv:2604.10674. - J. Wang, Y. Liu, J. Chen, X. Hu, Q. Zhang, Y. Cao, J. Wang, H. Yang, Y. Xie, and Q. Chen (2026b) MAD-OPD: Breaking the Ceiling in On-Policy Distillation via Multi-Agent Debate. arXiv preprint arXiv:2605.01347. - J. Wang, W. Zhang, W. Shi, Y. Li, and J. Cheng (2026c) TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents. arXiv preprint arXiv:2604.24005. - J. Wang, X. Ouyang, Z. Chen, Y. Hu, Z. Pan, X. Li, and L. Guo (2026d) TRACE: distilling where it matters via token-routed self on-policy alignment. arXiv preprint arXiv:2605.10194v1. - S. Wang, W. Huang, X. Yu, Z. Yang, H. Lin, K. Wu, C. Xiao, C. Chen, W. Wang, B. Zhu, Y. Zhang, and C. Qin (2026e) Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL. arXiv preprint arXiv:2604.28123. - W. Wang (2026) Knowledge Distillation Must Account for What It Loses. arXiv preprint arXiv:2604.25110. - Y. Wang, X. Chen, X. Jin, M. Wang, and L. Yang (2026f) OpenClaw-RL: Train Any Agent Simply by Talking. arXiv preprint arXiv:2603.10165. - Y. Wen, Z. Li, W. Du, and L. Mou (2023) f-Divergence Minimization for Sequence-Level Knowledge Distillation. Proceedings of ACL. - T. Wu, C. Tao, J. Wang, R. Yang, Z. Zhao, and N. Wong (2025) Rethinking Kullback-Leibler Divergence in Knowledge Distillation for Large Language Models. Proceedings of COLING. - Y. Wu, S. Han, and H. Cai (2026a) Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation. arXiv preprint arXiv:2604.13010. - Y. Wu, Z. Cai, L. Ning, H. Wang, Z. Chen, Y. Tang, and H. Chen (2026b) LiteGUI: Distilling Compact GUI Agents with Reinforcement Learning. arXiv preprint arXiv:2605.07505. - Xiaomi LLM-Core Team, B. Xiao, B. Xia, B. Yang, B. Gao, B. Shen, C. Zhang, C. He, C. Lou, F. Luo, G. Wang, G. Xie, H. Zhang, H. Lv, H. Li, H. Chen, H. Xu, H. Zhang, H. Liu, J. Duo, J. Wei, J. Xiao, J. Dong, J. Shi, J. Hu, K. Bao, K. Zhou, L. Li, L. Zhao, L. Zhang, P. Li, Q. Chen, S. Liu, S. Yu, S. Cao, S. Chen, S. Yu, S. Liu, T. Zhou, W. Su, W. Wang, W. Ma, X. Deng, B. Mao, B. Ye, C. Cai, C. Wang, C. Zhu, C. Ma, C. Chen, C. Li, D. Zhu, D. Xiao, D. Zhang, D. Zhang, F. Liu, F. Yang, F. Shi, G. Wang, H. Tian, H. Wu, H. Qu, H. Yi, H. An, H. Guan, X. Zhang, Y. Song, Y. Yan, Y. Zhao, Y. Lai, Y. Gao, Y. Cheng, Y. Tian, Y. Wang, Z. Tang, Z. Tang, Z. Wen, Z. Song, Z. Zheng, Z. Jiang, J. Wen, J. Sun, J. Li, J. Xue, J. Xia, K. Fang, M. Zhu, N. Chen, Q. Tu, Q. Zhang, Q. Wang, R. Li, R. Ma, S. Zhang, S. Wang, S. Li, S. Gu, S. Ren, S. Deng, T. Guo, T. Lu, W. Zhuang, W. Zhang, W. Xiong, W. Huang, W. Yang, X. Zhang, X. Yong, X. Wang, X. Xie, Y. Jiang, Y. Yang, Y. He, Y. Tu, Y. Dong, Y. Liu, Y. Ma, Y. Yu, Y. Xiang, Z. Huang, Z. Lin, Z. Xu, Z. Chen, Z. Deng, Z. Zhang, and Z. Yue (2026) MiMo-V2-Flash Technical Report. arXiv preprint arXiv:2601.02780. - X. Xie, Z. Xue, J. Wu, J. Li, Y. Wang, X. Hu, Y. Liu, and J. Zhang (2025) LLM-Oriented Token-Adaptive Knowledge Distillation. arXiv preprint arXiv:2510.11615. - J. Xiong, H. Shen, S. Gong, Y. Cheng, J. Shen, C. Tao, H. Tan, H. Bai, L. Shang, and N. Wong (2026) OVD: On-policy Verbal Distillation. arXiv preprint arXiv:2601.21968. - H. Xu, Q. Zhu, H. Deng, J. Li, L. Hou, Y. Wang, L. Shang, R. Xu, and F. Mi (2025a) KDRL: Post-Training Reasoning LLMs via Unified Knowledge Distillation and Reinforcement Learning. arXiv preprint arXiv:2506.02208. - S. Xu, L. Pang, Y. Zhu, J. Gu, Z. Wei, J. Deng, F. Pan, H. Shen, and X. Cheng (2025b) RLKD: Distilling LLMs’ Reasoning via Reinforcement Learning. arXiv preprint arXiv:2505.16142. - W. Xu, R. Han, Z. Wang, L. T. Le, D. Madeka, L. Li, W. Y. Wang, R. Agarwal, C. Lee, and T. Pfister (2025c) Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling. Proceedings of ICLR. - X. Xu, M. Li, C. Tao, T. Shen, R. Cheng, J. Li, C. Xu, D. Tao, and T. Zhou (2024) A Survey on Knowledge Distillation of Large Language Models. arXiv preprint arXiv:2402.13116. - Y. Xu, H. Sang, Z. Zhou, R. He, Z. Wang, and A. Geramifard (2026a) Beyond grpo and on-policy distillation: an empirical sparse-to-dense reward principle for language-model post-training. arXiv preprint arXiv:2605.12483v1. - Y. Xu, H. Sang, Z. Zhou, R. He, Z. Wang, and A. Geramifard (2026b) TIP: Token Importance in On-Policy Distillation. arXiv preprint arXiv:2604.14084. - Y. Xu, H. Sang, Z. Zhou, R. He, and Z. Wang (2026c) PACED: Distillation and On-Policy Self-Distillation at the Frontier of Student Competence. arXiv preprint arXiv:2603.11178. - J. Yan, Y. Li, Z. Hu, Z. Wang, G. Cui, X. Qu, Y. Cheng, and Y. Zhang (2025) Learning to Reason under Off-Policy Guidance. arXiv preprint arXiv:2504.14945. - S. Yan, K. Liu, C. Shen, B. Wang, S. Fan, J. Zhang, Y. Wu, Z. Wang, and J. Ye (2026) Distribution-Aligned Sequence Distillation for Superior Long-CoT Reasoning. arXiv preprint arXiv:2601.09088. - A. Yang, A. Li, B. Yang, B. Zhang, B. Hui, B. Zheng, B. Yu, C. Gao, C. Huang, C. Lv, C. Zheng, D. Liu, F. Zhou, F. Huang, F. Hu, H. Ge, H. Wei, H. Lin, J. Tang, J. Yang, J. Tu, J. Zhang, J. Yang, J. Yang, J. Zhou, J. Zhou, J. Lin, K. Dang, K. Bao, K. Yang, L. Yu, L. Deng, M. Li, M. Xue, M. Li, P. Zhang, P. Wang, Q. Zhu, R. Men, R. Gao, S. Liu, S. Luo, T. Li, T. Tang, W. Yin, X. Ren, X. Wang, X. Zhang, X. Ren, Y. Fan, Y. Su, Y. Zhang, Y. Zhang, Y. Wan, Y. Liu, Z. Wang, Z. Cui, Z. Zhang, Z. Zhou, and Z. Qiu (2025a) Qwen3 Technical Report. arXiv preprint arXiv:2505.09388. - C. Yang, C. Qin, Q. Si, M. Chen, N. Gu, D. Yao, Z. Lin, W. Wang, J. Wang, and N. Duan (2026a) Self-Distilled RLVR. arXiv preprint arXiv:2604.03128. - F. Yang, R. Meng, T. D. Qi, A. Ezzati, and Y. Wen (2026b) KEPO: Knowledge-Enhanced Preference Optimization for Multimodal Reasoning with Applications to Medical VQA. arXiv preprint arXiv:2602.00400. - H. Yang, M. Wu, B. He, Z. Cao, S. Yan, K. Q. Lin, and Z. Ding (2026c) Reasoning compression with mixed-policy distillation. arXiv preprint arXiv:2605.08776. - L. Yang, Z. Yu, T. Zhang, M. Xu, J. E. Gonzalez, B. Cui, and S. Yan (2025b) SuperCorrect: Advancing Small LLM Reasoning with Thought Template Distillation and Self-Correction. Proceedings of ICLR. - W. Yang, W. Liu, R. Xie, K. Yang, S. Yang, and Y. Lin (2026d) Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation. arXiv preprint arXiv:2602.12125. - Y. Yang, X. Wang, and W. Zhang (2026e) OGLS-sd: on-policy self-distillation with outcome-guided logit steering for llm reasoning. arXiv preprint arXiv:2605.12400v1. - Z. Yang, Z. Guo, Y. Song, M. Xu, Y. Wang, Y. Wang, X. Liang, and J. Tang (2026f) Prune-OPD: Efficient and Reliable On-Policy Distillation for Long-Horizon Reasoning. arXiv preprint arXiv:2605.07804. - Z. Yang, Z. Liu, Y. Chen, W. Dai, B. Wang, S. Lin, C. Lee, Y. Chen, D. Jiang, J. He, R. Pi, G. Lam, N. Lee, A. Bukharin, M. Shoeybi, B. Catanzaro, and W. Ping (2026g) Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation. arXiv preprint arXiv:2603.19220. - T. Ye, L. Dong, Z. Chi, X. Wu, S. Huang, and F. Wei (2025) Black-Box On-Policy Distillation of Large Language Models. arXiv preprint arXiv:2511.10643. - T. Ye, L. Dong, Q. Dong, X. Wu, S. Huang, and F. Wei (2026a) Online Experiential Learning for Language Models. arXiv preprint arXiv:2603.16856. - T. Ye, L. Dong, X. Wu, S. Huang, and F. Wei (2026b) On-Policy Context Distillation for Language Models. arXiv preprint arXiv:2602.12275. - W. Yu, X. Li, Y. Zhao, X. Liu, R. Zhang, H. Wang, Y. Luo, C. H. Wu, G. Mittal, M. Fredrikson, and Y. Hu (2026a) Multi-rollout on-policy distillation via peer successes and failures. arXiv preprint arXiv:2605.12652. - X. Yu, L. Liao, Y. Zhang, Y. Yu, L. Xue, and Q. Guo (2026b) Preference-based self-distillation: beyond KL matching via reward regularization. arXiv preprint arXiv:2605.05040. - D. Zhang, Z. Yang, S. Janghorbani, J. Han, A. Ressler, Q. Qian, G. D. Lyng, S. S. Batra, and R. E. Tillman (2026a) Fast and Effective On-policy Distillation from Reasoning Prefixes. arXiv preprint arXiv:2602.15260. - J. Zhang, X. Peng, Q. Chen, Q. Ye, C. Xiong, and C. Wu (2026b) The Illusion of Certainty: Decoupling Capability and Calibration in On-Policy Distillation. arXiv preprint arXiv:2604.16830. - K. Zhang, Y. Tian, D. Zhao, Y. Li, Y. Liu, V. M. Patel, and D. Fu (2026c) On-policy distillation with best-of-n teacher rollout selection. arXiv preprint arXiv:2605.09725. - M. Zhang, Y. Liu, S. Lin, X. Yang, Q. Dai, C. Luo, W. Jiang, P. Hou, A. Zeng, X. Geng, and B. Guo (2026d) Towards On-Policy SFT: Distribution Discriminant Theory and its Applications in LLM Training. arXiv preprint arXiv:2602.12222. - R. Zhang, R. H. Bai, H. Zheng, N. Jaitly, R. Collobert, and Y. Zhang (2026e) Embarrassingly Simple Self-Distillation Improves Code Generation. arXiv preprint arXiv:2604.01193. - S. Zhang, X. Zhang, T. Zhang, B. Hu, Y. Chen, and J. Xu (2025a) AlignDistil: Token-Level Language Model Alignment as Adaptive Policy Distillation. In Proceedings of ACL. - X. Zhang, Z. Ding, T. Pan, R. Yang, C. Kang, X. Xiong, and J. Gu (2026f) OPSDL: On-Policy Self-Distillation for Long-Context Language Models. arXiv preprint arXiv:2604.17535. - X. Zhang, S. Zhang, Y. Liang, F. Meng, Y. Chen, J. Xu, and J. Zhou (2025b) A Dual-Space Framework for General Knowledge Distillation of Large Language Models. arXiv preprint arXiv:2504.11426. - Y. Zhang, D. Wu, H. Shen, Y. Zhou, and C. Ma (2026g) Learn where to click from yourself: on-policy self-distillation for gui grounding. arXiv preprint arXiv:2605.00642. - Y. Zhang, Y. Zhu, W. Chong, S. Tu, Q. Zhang, J. Chai, X. Wang, W. Lin, G. Yin, and D. Zhao (2026h) $\pi$-Play: Multi-Agent Self-Play via Privileged Self-Distillation without External Data. arXiv preprint arXiv:2604.14054. - Y. Zhang, H. Cao, Z. Jiang, C. Zi, Z. Zhou, Z. Liu, Y. Li, J. Li, and Z. Gao (2026i) ProteinOPD: towards effective and efficient preference alignment for protein design. arXiv preprint arXiv:2605.10189v1. - Y. Zhang, S. Li, C. Yu, Q. Lu, S. Jin, C. Dong, H. Liu, I. Hong, X. Li, Z. Shi, B. Yin, and J. Shang (2026j) Learning with rare success but rich feedback via reflection-enhanced self-distillation. arXiv preprint arXiv:2605.12741. - Z. Zhang, S. Jiang, Y. Shen, Y. Zhang, D. Ram, S. Yang, Z. Tu, W. Xia, and S. Soatto (2026k) Reinforcement-aware Knowledge Distillation for LLM Reasoning. arXiv preprint arXiv:2602.22495. - A. Zhao, Z. Chen, J. Tong, Y. Fan, F. Ye, S. Li, Y. Ma, W. Li, and X. Shen (2026a) On-Policy Supervised Fine-Tuning for Efficient Reasoning. arXiv preprint arXiv:2602.13407. - S. Zhao, Z. Xie, M. Liu, J. Huang, G. Pang, F. Chen, and A. Grover (2026b) Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models. arXiv preprint arXiv:2601.18734. - Z. Zhao, L. Ma, and W. Zhang (2026c) Training with harnesses: on-policy harness self-distillation for complex reasoning. arXiv preprint arXiv:2605.08741v1. - B. Zheng, X. Ma, Y. Liang, J. Ruan, X. Fu, K. Lin, B. Zhu, K. Zeng, and X. Cai (2026) SCOPE: Signal-Calibrated On-Policy Distillation Enhancement with Dual-Path Adaptive Weighting. arXiv preprint arXiv:2604.10688. - Q. Zhong, L. Ding, L. Shen, J. Liu, B. Du, and D. Tao (2024) Revisiting Knowledge Distillation for Autoregressive Language Models. Proceedings of ACL. - Q. Zhong, M. Zheng, M. Song, X. Lin, J. Sun, H. Jiang, X. Wang, and J. Fang (2026a) SOD: Step-wise On-policy Distillation for Small Language Model Agents. arXiv preprint arXiv:2605.07725. - Z. Zhong, H. Yan, J. Li, J. He, T. Zhang, and H. Li (2026b) VLA-OPD: Bridging Offline SFT and Online RL for Vision-Language-Action Models via On-Policy Distillation. arXiv preprint arXiv:2603.26666. - Y. Zhou, K. Lyu, A. S. Rawat, A. K. Menon, A. Rostamizadeh, S. Kumar, J. Kagy, and R. Agarwal (2024) DistillSpec: Improving Speculative Decoding via Knowledge Distillation. Proceedings of ICLR. - S. Zhu, X. Ye, H. Lu, W. Shi, and G. Liu (2026) The many faces of on-policy distillation: pitfalls, mechanisms, and fixes. arXiv preprint arXiv:2605.11182v1. - M. Zimmer, X. Ji, T. Nguyen, and H. B. Ammar (2025) Rethinking Large Language Model Distillation: A Constrained Markov Decision Process Perspective. arXiv preprint arXiv:2509.22921. - Q. Zou, Y. Zhang, B. Lin, and W. Chen (2026) Reward-weighted on-policy distillation with an open property-equivalence verifier for NL-to-SVA generation. arXiv preprint arXiv:2605.13501.