Neuerungen auf der Gradio Plattform Vereinfachung des Feintunings von Llama 3 Modellen

Die Gradio-Plattform hat kürzlich eine beeindruckende Neuerung vorgestellt: eine grafische Benutzeroberfläche (GUI) für das Feintuning von Llama-3-Modellen, die auf einem kostenlosen T4-GPU-Server läuft. Die sogenannte LLaMA Factory ermöglicht es, das Feintuning der Llama-3-Modelle zu vereinfachen und zugänglicher zu machen. Zwei mit LLaMA Factory feinabgestimmte Llama-3-Modelle sind bereits auf dem Hugging Face Hub verfügbar, insbesondere Llama3-8B-Chinese-Chat und Llama3-Chinese, die speziell für chinesischsprachige Anwendungen entwickelt wurden. LLaMA-3-Modelle sind eine Familie von Large Language Models (LLMs), die von Meta entwickelt wurden und einen wichtigen Fortschritt in der natürlichen Sprachverarbeitung darstellen. Sie wurden mit einem umfangreichen Datensatz von 15 Billionen Token trainiert, was im Vergleich zu Llama-2 mit 2 Billionen Token eine signifikante Steigerung bedeutet. Bisher wurden zwei Modellgrößen veröffentlicht: ein Modell mit 70 Milliarden Parametern und ein kleineres mit 8 Milliarden Parametern. Das 70B-Modell hat bereits beeindruckende Leistungen gezeigt; es erreichte 82 Punkte im MMLU-Benchmark und 81,7 Punkte im HumanEval-Benchmark. Eine der Schlüsselinnovationen im Bereich des Feintunings von LLMs ist die ORPO-Technik (Odds Ratio Preference Optimization), die von Hong und Lee (2024) eingeführt wurde. ORPO kombiniert das Feintuning von Instruktionen und die Präferenzabstimmung in einem einzigen Prozess. Dieser Ansatz modifiziert das standardmäßige Sprachmodellierungsziel, indem er den negativen Log-Likelihood-Verlust mit einem Odds-Ratio(OR)-Term kombiniert. Dieser OR-Verlust bestraft zurückgewiesene Antworten schwach, während er bevorzugte Antworten stark belohnt, sodass das Modell gleichzeitig die Zielaufgabe erlernen und sich an menschliche Präferenzen anpassen kann. ORPO wurde in den wichtigsten Feintuning-Bibliotheken implementiert, einschließlich TRL, Axolotl und LLaMA-Factory. In dieser Anleitung wird die Verwendung von ORPO mit TRL vorgestellt. Für das Feintuning wird eine Präferenzdatenbank benötigt, die eine Aufforderung, eine ausgewählte Antwort und eine zurückgewiesene Antwort umfasst. Im Beispiel wird mlabonne/orpo-dpo-mix-40k verwendet, eine Kombination verschiedener hochwertiger DPO-Datensätze. Das Feintuning eines Llama-3-Modells mit ORPO erfordert eine sorgfältige Konfiguration von Hyperparametern, wie Lernrate und Beta (der λ-Parameter im ORPO-Papier), sowie eine Anpassung weiterer Parameter wie max_length und Batch-Größe, um den verfügbaren VRAM optimal zu nutzen. In dieser speziellen Anleitung wird das Modell auf einem L4-GPU-Server in etwa zwei Stunden auf 1.000 Beispielen trainiert. Bei diesem Schnelldurchlauf ist es jedoch wichtig zu beachten, dass der Unterschied zwischen bevorzugten und abgelehnten Antworten nicht eindeutig ist: Die durchschnittliche Marge und die Genauigkeit liegen nur knapp über null bzw. bei 0,5. Im Originalpapier trainierten die Autoren Modelle auf dem Anthropic/hh-rlhf-Datensatz (161.000 Beispiele) über 10 Epochen, was wesentlich länger ist als dieser Schnelldurchlauf. Sie experimentierten auch mit Llama-3 und stellten freundlicherweise ihre Logs zur Verfügung (Dank an Jiwoo Hong). Zum Abschluss dieser Anleitung wird die QLoRA-Adapter mit dem Basismodell verschmolzen und auf den Hugging Face Hub hochgeladen. Hierbei ist es wichtig, den Speicher ordnungsgemäß zu verwalten, um Speicherlecks zu vermeiden. Die Verwendung von Feintuning-Techniken wie ORPO und QLoRA verdeutlicht den zunehmenden Trend zur Effizienzsteigerung beim Trainieren von LLMs. Diese Werkzeuge und Techniken ermöglichen es Unternehmen und Einzelpersonen, auch mit begrenzter Rechenkapazität LLMs für spezifische Anwendungen zu optimieren und dabei die Kosten und den Zeitaufwand zu reduzieren. Der Zugang zu solchen erweiterten Feintuning-Funktionen könnte die Art und Weise, wie wir mit KI interagieren und sie für unsere Bedürfnisse anpassen, grundlegend verändern. Es ermöglicht eine größere Personalisierung und Effektivität bei der Nutzung von KI-Modellen in verschiedenen Bereichen, von der Kundendienstautomatisierung bis hin zur medizinischen Diagnose. Die Entwicklungen in der Feinabstimmung von LLMs sind ein spannendes Feld, das sowohl technische Herausforderungen als auch ethische Überlegungen mit sich bringt. Während wir die Fähigkeiten von KI-Modellen erweitern, müssen wir auch sicherstellen, dass sie verantwortungsbewusst genutzt werden und im Einklang mit gesellschaftlichen Werten und Normen stehen. In Anbetracht dieser Fortschritte ist es für Unternehmen wie Mindverse unerlässlich, auf dem neuesten Stand der Technik zu bleiben und die Anwendungen ihrer KI-Dienste kontinuierlich zu verbessern. Die Integration von Tools wie LLaMA Factory und ORPO in ihr Angebot könnte Mindverse dabei helfen, seinen Kunden maßgeschneiderte Lösungen zu bieten, die auf die neuesten Entwicklungen in der KI-Technologie abgestimmt sind.