Direkte Präferenzoptimierung als neuer Weg zur Verbesserung von KI-Sprachmodellen

Kategorien:
No items found.
Freigegeben:
June 14, 2024

Im Bereich der Künstlichen Intelligenz (KI) werden fortwährend neue Techniken entwickelt, um die Leistungsfähigkeit und Anwendbarkeit von großen Sprachmodellen (Large Language Models, LLMs) zu verbessern. Eine dieser Techniken ist die Direkte Präferenzoptimierung (Direct Preference Optimization, DPO), die sich als wirksam erwiesen hat, um die Generalisierungsfähigkeiten von LLMs zu steigern.

Groß angelegte, unüberwachte Sprachmodelle haben die Fähigkeit, umfangreiches Weltwissen und einige Schlussfolgerungsfähigkeiten zu erlernen. Allerdings ist es schwierig, genaue Kontrolle über ihr Verhalten zu erlangen, da ihre Ausbildung völlig unüberwacht erfolgt. Um diese Steuerbarkeit zu erreichen, wurden bisher menschliche Bewertungen zur relativen Qualität der Modellerzeugungen gesammelt und die unüberwachten LLMs wurden feinabgestimmt, um sie an diese Präferenzen anzupassen, häufig unter Verwendung von Reinforcement Learning mit menschlichem Feedback (RLHF). Diese Technik ist jedoch komplex und oft instabil. Sie beginnt mit der Anpassung eines Belohnungsmodells, das die menschlichen Präferenzen widerspiegelt, und setzt die Feinabstimmung des großen unüberwachten LLMs fort, um diese geschätzte Belohnung zu maximieren, ohne sich zu weit vom ursprünglichen Modell zu entfernen.

Eine neue Parameterisierung des Belohnungsmodells im RLHF ermöglicht es, die entsprechende optimale Politik in geschlossener Form zu extrahieren, wodurch das Standard-RLHF-Problem mit nur einem einfachen Klassifikationsverlust gelöst werden kann. Die daraus resultierende Methode, DPO genannt, ist stabil, leistungsstark und rechenleicht und macht das Anpassen eines Belohnungsmodells, das Probenziehen aus dem LLM während der Feinabstimmung oder das Durchführen einer signifikanten Hyperparameterabstimmung überflüssig.

Experimente zeigen, dass DPO LLMs so gut oder besser als bestehende Methoden an menschliche Präferenzen anpassen kann. Insbesondere übertrifft die Feinabstimmung mit DPO die Fähigkeit von RLHF, die Stimmung der Erzeugungen zu kontrollieren, und erreicht oder verbessert die Antwortqualität in Zusammenfassungen und Einzelgesprächsdialogen, während sie wesentlich einfacher zu implementieren und zu trainieren ist.

Diese Forschungsergebnisse wurden in einem wissenschaftlichen Papier von Rafael Rafailov, Archit Sharma, Eric Mitchell, Stefano Ermon, Christopher D. Manning und Chelsea Finn veröffentlicht, das zu einem wichtigen Gesprächsthema auf sozialen Medien und unter KI-Forschern geworden ist.

Die Implikationen dieser Arbeit sind weitreichend für die Entwicklung von KI-Systemen, insbesondere für solche, die in der Sprachverarbeitung und im multimodalen Kontext arbeiten. Unternehmen wie Mindverse, das als ein deutsches All-in-One-Content-Tool für KI-Texte, Inhalte, Bilder und Forschung fungiert, könnten von diesen Fortschritten profitieren, indem sie ihre eigenen maßgeschneiderten Lösungen wie Chatbots, Voicebots, KI-Suchmaschinen, Wissenssysteme und vieles mehr verbessern.

Die Forschung zu DPO zeigt, dass eine engere Anlehnung an menschliche Präferenzen ohne die Komplexität und Instabilität traditioneller RLHF-Methoden möglich ist. Dies eröffnet neue Wege für die Entwicklung von KI-Systemen, die besser auf menschliche Bedürfnisse und Erwartungen abgestimmt sind.

Bibliographie:
- Rafailov, R., Sharma, A., Mitchell, E., Ermon, S., Manning, C. D., & Finn, C. (2023). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. arXiv preprint arXiv:2305.18290.
- OpenReview.net. (2023). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. NeurIPS 2023 Conference.

Was bedeutet das?