Asynchrones RLHF: Effizienzsteigerung und Skalierbarkeit beim Training von Sprachmodellen

Kategorien:

No items found.

Freigegeben:

October 29, 2024

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Die vorherrschende Methode für RLHF (Reinforcement Learning from Human Feedback) ist das synchrone On-Policy-Verfahren: Es wird gleichzeitig aus der Sprachmodellpolitik generiert, mit einem Belohnungsmodell gekennzeichnet und anhand von Feedback zu den eigenen Ausgaben des Modells gelernt. Dieses Verfahren ist zwar leistungsfähig, aber rechnerisch ineffizient. Inspiriert von der klassischen Deep-RL-Literatur schlagen wir vor, Generierung und Lernen im RLHF zu trennen. Dies ermöglicht die asynchrone Generierung neuer Samples bei gleichzeitigem Training auf alten Samples, was zu schnellerem Training und einer rechnerisch optimierten Skalierung führt. Asynchrones Training beruht jedoch auf einem wenig erforschten Bereich, dem Online-Off-Policy-RLHF: Lernen aus Samples aus früheren Iterationen unseres Modells. Um die Herausforderungen in diesem Bereich zu verstehen, untersuchen wir eine grundlegende Frage: Wie viel Off-Policy-Verhalten können wir tolerieren, damit asynchrones Training das Lernen beschleunigt, aber die Leistung beibehält? Unter den verschiedenen von uns getesteten RLHF-Algorithmen stellen wir fest, dass Online-DPO (Distributed Proximal Policy Optimization) am robustesten gegenüber Off-Policy-Daten ist und die Robustheit mit der Skalierung des Policy-Modells zunimmt. Wir untersuchen weitere Rechenoptimierungen für asynchrones RLHF, stellen aber fest, dass diese mit Leistungseinbußen verbunden sind, was zu einem Kompromiss führt. Schließlich überprüfen wir die Skalierbarkeit von asynchronem RLHF, indem wir LLaMA 3.1 8B mit RLHF 40 % schneller als bei einem synchronen Durchlauf auf eine Instruktionsverfolgungsaufgabe trainieren und gleichzeitig die endgültige Leistung erreichen.

Asynchrones RLHF: Ein schnelleres und effizienteres Paradigma für das Training von Sprachmodellen

Der Standard-RLHF ist gezwungen, synchron zu sein: Online-, On-Policy-RL. Um die Vorteile von LLM-Generierungsbibliotheken und -Effizienzen (z. B. vllm) zu nutzen, legen wir Generierung und Training auf separate GPUs. Dies macht das Training off-policy, ermöglicht uns aber große Geschwindigkeitsvorteile. Diese Geschwindigkeitsvorteile steigen mit der Skalierung, aber die Leistung bleibt gleich!

Tiefergehende Betrachtung von RLHF und asynchronem Lernen

Um hochmoderne Chatbots zu entwickeln, werden große Sprachmodelle mit Reinforcement Learning (RL) feinabgestimmt, häufig um menschliches Feedback (RLHF) zu optimieren. Dieser Prozess ist rechnerisch aufwendig und kann Wochen dauern. Offline-Ansätze wie DPO lernen aus einem statischen Datensatz und sind effizient, aber nicht leistungsstark. Das vorherrschende Paradigma, online und on-policy - gleichzeitige Generierung aus dem Modell, Beschriftung mit einem Belohnungsmodell und Lernen aus dem Feedback der eigenen Ausgaben des Modells - ist leistungsstark, aber nicht effizient. In Anlehnung an frühere Arbeiten im Bereich des allgemeinen Deep RL schlagen wir vor, den Akteur und den Lernenden im RLHF zu trennen. Dies ermöglicht die asynchrone Generierung neuer Samples während des Lernens aus früheren Samples, was zu einem insgesamt schnelleren Training und einer besseren Skalierung führt. Dies erfordert jedoch ein neues Schema für RLHF, online, aber off-policy: Lernen aus Samples einer früheren Version unseres Modells. Wir stellen eine grundlegende Frage: Wie viel Off-Policy-Verhalten können wir tolerieren, damit asynchrones Training das Lernen beschleunigt, aber die Leistung beibehält? Wir stellen fest, dass ein kontrastiver Verlust, Online-DPO, am robustesten gegenüber Off-Policy-Daten ist und dass die Robustheit mit der Skalierung des Policy-Modells zunimmt. Wir zeigen noch weitere Rechenoptimierungen, weisen aber darauf hin, dass diese mit Leistungseinbußen verbunden sind, was zu einem Kompromiss führt. Schließlich überprüfen wir unsere Designentscheidungen, indem wir LLaMA 3.1 8B mit RLHF in der Hälfte der Zeit eines synchronen Laufs als hilfreichen Chatbot trainieren und gleichzeitig die endgültige Leistung erreichen.

Schlussfolgerung

Asynchrones RLHF bietet eine vielversprechende Lösung für die Herausforderungen der Effizienz und Skalierbarkeit beim RLHF-Training. Durch die Trennung von Sample-Generierung und -Training ermöglicht dieser Ansatz schnellere Trainingszeiten und eine bessere Ressourcennutzung. Die Robustheit von Online-DPO gegenüber Off-Policy-Daten macht es zu einer geeigneten Wahl für dieses Paradigma. Obwohl es noch offene Fragen und Kompromisse zu untersuchen gilt, ebnet asynchrones RLHF den Weg für effizientere und effektivere Verfahren zur Feinabstimmung großer Sprachmodelle.

Bibliographie

https://openreview.net/pdf/7bb9cc2bbe09f662fbc7a9ce1b13913b833ee476.pdf https://openreview.net/forum?id=ND3io3eses&referrer=%5Bthe%20profile%20of%20Shengyi%20Huang%5D(%2Fprofile%3Fid%3D~Shengyi_Huang1) https://arxiv.org/html/2410.14803 https://github.com/hanjuku-kaso/awesome-offline-rl http://paperreading.club/page?id=261838 https://arxiv.org/html/2404.08555v2 https://www.researchgate.net/publication/372286456_Secrets_of_RLHF_in_Large_Language_Models_Part_I_PPO https://www.alexanderthamm.com/en/blog/simply-clear-so-it-works-reinforcement-learning/ https://publikationen.bibliothek.kit.edu/1000169632/152531752 https://icml.cc/Downloads/2024