Die vorherrschende Methode für RLHF (Reinforcement Learning from Human Feedback) ist das synchrone On-Policy-Verfahren: Es wird gleichzeitig aus der Sprachmodellpolitik generiert, mit einem Belohnungsmodell gekennzeichnet und anhand von Feedback zu den eigenen Ausgaben des Modells gelernt. Dieses Verfahren ist zwar leistungsfähig, aber rechnerisch ineffizient. Inspiriert von der klassischen Deep-RL-Literatur schlagen wir vor, Generierung und Lernen im RLHF zu trennen. Dies ermöglicht die asynchrone Generierung neuer Samples bei gleichzeitigem Training auf alten Samples, was zu schnellerem Training und einer rechnerisch optimierten Skalierung führt. Asynchrones Training beruht jedoch auf einem wenig erforschten Bereich, dem Online-Off-Policy-RLHF: Lernen aus Samples aus früheren Iterationen unseres Modells. Um die Herausforderungen in diesem Bereich zu verstehen, untersuchen wir eine grundlegende Frage: Wie viel Off-Policy-Verhalten können wir tolerieren, damit asynchrones Training das Lernen beschleunigt, aber die Leistung beibehält? Unter den verschiedenen von uns getesteten RLHF-Algorithmen stellen wir fest, dass Online-DPO (Distributed Proximal Policy Optimization) am robustesten gegenüber Off-Policy-Daten ist und die Robustheit mit der Skalierung des Policy-Modells zunimmt. Wir untersuchen weitere Rechenoptimierungen für asynchrones RLHF, stellen aber fest, dass diese mit Leistungseinbußen verbunden sind, was zu einem Kompromiss führt. Schließlich überprüfen wir die Skalierbarkeit von asynchronem RLHF, indem wir LLaMA 3.1 8B mit RLHF 40 % schneller als bei einem synchronen Durchlauf auf eine Instruktionsverfolgungsaufgabe trainieren und gleichzeitig die endgültige Leistung erreichen.
Asynchrones RLHF: Ein schnelleres und effizienteres Paradigma für das Training von Sprachmodellen
Der Standard-RLHF ist gezwungen, synchron zu sein: Online-, On-Policy-RL. Um die Vorteile von LLM-Generierungsbibliotheken und -Effizienzen (z. B. vllm) zu nutzen, legen wir Generierung und Training auf separate GPUs. Dies macht das Training off-policy, ermöglicht uns aber große Geschwindigkeitsvorteile. Diese Geschwindigkeitsvorteile steigen mit der Skalierung, aber die Leistung bleibt gleich!
Tiefergehende Betrachtung von RLHF und asynchronem Lernen
Um hochmoderne Chatbots zu entwickeln, werden große Sprachmodelle mit Reinforcement Learning (RL) feinabgestimmt, häufig um menschliches Feedback (RLHF) zu optimieren. Dieser Prozess ist rechnerisch aufwendig und kann Wochen dauern. Offline-Ansätze wie DPO lernen aus einem statischen Datensatz und sind effizient, aber nicht leistungsstark. Das vorherrschende Paradigma, online und on-policy - gleichzeitige Generierung aus dem Modell, Beschriftung mit einem Belohnungsmodell und Lernen aus dem Feedback der eigenen Ausgaben des Modells - ist leistungsstark, aber nicht effizient. In Anlehnung an frühere Arbeiten im Bereich des allgemeinen Deep RL schlagen wir vor, den Akteur und den Lernenden im RLHF zu trennen. Dies ermöglicht die asynchrone Generierung neuer Samples während des Lernens aus früheren Samples, was zu einem insgesamt schnelleren Training und einer besseren Skalierung führt. Dies erfordert jedoch ein neues Schema für RLHF, online, aber off-policy: Lernen aus Samples einer früheren Version unseres Modells. Wir stellen eine grundlegende Frage: Wie viel Off-Policy-Verhalten können wir tolerieren, damit asynchrones Training das Lernen beschleunigt, aber die Leistung beibehält? Wir stellen fest, dass ein kontrastiver Verlust, Online-DPO, am robustesten gegenüber Off-Policy-Daten ist und dass die Robustheit mit der Skalierung des Policy-Modells zunimmt. Wir zeigen noch weitere Rechenoptimierungen, weisen aber darauf hin, dass diese mit Leistungseinbußen verbunden sind, was zu einem Kompromiss führt. Schließlich überprüfen wir unsere Designentscheidungen, indem wir LLaMA 3.1 8B mit RLHF in der Hälfte der Zeit eines synchronen Laufs als hilfreichen Chatbot trainieren und gleichzeitig die endgültige Leistung erreichen.
Schlussfolgerung
Asynchrones RLHF bietet eine vielversprechende Lösung für die Herausforderungen der Effizienz und Skalierbarkeit beim RLHF-Training. Durch die Trennung von Sample-Generierung und -Training ermöglicht dieser Ansatz schnellere Trainingszeiten und eine bessere Ressourcennutzung. Die Robustheit von Online-DPO gegenüber Off-Policy-Daten macht es zu einer geeigneten Wahl für dieses Paradigma. Obwohl es noch offene Fragen und Kompromisse zu untersuchen gilt, ebnet asynchrones RLHF den Weg für effizientere und effektivere Verfahren zur Feinabstimmung großer Sprachmodelle.
Bibliographie
https://openreview.net/pdf/7bb9cc2bbe09f662fbc7a9ce1b13913b833ee476.pdf
https://openreview.net/forum?id=ND3io3eses&referrer=%5Bthe%20profile%20of%20Shengyi%20Huang%5D(%2Fprofile%3Fid%3D~Shengyi_Huang1)
https://arxiv.org/html/2410.14803
https://github.com/hanjuku-kaso/awesome-offline-rl
http://paperreading.club/page?id=261838
https://arxiv.org/html/2404.08555v2
https://www.researchgate.net/publication/372286456_Secrets_of_RLHF_in_Large_Language_Models_Part_I_PPO
https://www.alexanderthamm.com/en/blog/simply-clear-so-it-works-reinforcement-learning/
https://publikationen.bibliothek.kit.edu/1000169632/152531752
https://icml.cc/Downloads/2024
Mindverse vs ChatGPT Plus Widget