Evolutionäre Strategien als neue Methode für das Fine-Tuning von Large Language Models

Kategorien:

No items found.

Freigegeben:

October 6, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Evolutionäre Strategien (ES) etablieren sich als vielversprechende Alternative zu Reinforcement Learning (RL) für das Fine-Tuning von Large Language Models (LLMs).
Ein neuer Ansatz ermöglicht die Skalierung von ES auf LLMs mit Milliarden von Parametern, was zuvor als undurchführbar galt.
ES zeigt eine überlegene Stichprobeneffizienz, Robustheit gegenüber „Reward Hacking“ und eine höhere Stabilität über verschiedene Durchläufe hinweg im Vergleich zu etablierten RL-Methoden wie PPO und GRPO.
Die Methode zeichnet sich durch ihre Parallelisierbarkeit, die Toleranz gegenüber langfristigen Belohnungen und die Vermeidung von Backpropagation aus.
Diese Entwicklung eröffnet neue Wege für die Parameterraum-Exploration und das Fine-Tuning von LLMs, insbesondere bei Aufgaben mit schwer zu definierenden Belohnungsfunktionen.

Die kontinuierliche Weiterentwicklung von Large Language Models (LLMs) ist ein zentraler Pfeiler der modernen KI-Forschung. Während vortrainierte Modelle auf riesigen Datenmengen basieren, ist das anschließende Fine-Tuning entscheidend, um ihre Fähigkeiten zu verfeinern, die Argumentationsfähigkeit zu verbessern und sie stärker an menschliche Absichten anzupassen. Traditionell dominieren hierbei Reinforcement Learning (RL)-Methoden wie Proximal Policy Optimization (PPO) und Generalized Return-Weighted Policy Optimization (GRPO) das Feld. Jüngste Forschungsarbeiten deuten jedoch auf eine vielversprechende Alternative hin: die Anwendung von Evolutionären Strategien (ES) im großen Maßstab.

Herausforderungen des Reinforcement Learning beim LLM Fine-Tuning

Reinforcement Learning hat sich als Standard für das Post-Training von LLMs etabliert und war maßgeblich an der Gestaltung vieler produktionsreifer Modelle beteiligt. Dennoch sind mit RL-Ansätzen bestimmte Limitationen verbunden, die ihre Effizienz und Robustheit beeinträchtigen können:

Geringe Stichprobeneffizienz und hohe Varianz: Insbesondere bei Belohnungsfunktionen, die sich auf langfristige Ergebnisse konzentrieren und nur spärliche Rückmeldungen liefern, hat RL Schwierigkeiten bei der Kreditzuweisung auf Token-Ebene.
Sensibilität gegenüber Modellwahl und Hyperparametern: Die Leistung von RL-Methoden kann stark von der Wahl des Basis-LLM und den spezifischen Hyperparametern abhängen, was zu inkonsistenten Ergebnissen führt.
Tendenz zu "Reward Hacking": Modelle, die mit RL trainiert werden, können dazu neigen, die Belohnungsfunktion zu "hacken", indem sie unerwünschte Verhaltensweisen entwickeln, um die Belohnung zu maximieren, ohne die eigentliche Absicht zu erfüllen.
Instabilität über mehrere Durchläufe: Die Ergebnisse von RL-Fine-Tuning können über unabhängige Durchläufe hinweg inkonsistent sein, was die Kosten und den Aufwand für das Training erhöht.

Evolutionäre Strategien als Alternative

Evolutionäre Strategien (ES) sind eine Klasse populationsbasierter Optimierungsalgorithmen nullter Ordnung, die historisch Vorteile wie hohe Parallelisierbarkeit, Toleranz gegenüber langfristigen Belohnungen, umfassende Exploration und die Vermeidung von Backpropagation bieten. Bislang galt ihre Skalierung auf den Milliarden-Parameter-Raum von LLMs aufgrund pessimistischer Annahmen über die Komplexität der Parameterraum-Exploration als undurchführbar. Eine aktuelle Studie präsentiert jedoch den ersten erfolgreichen Ansatz, ES für das Fine-Tuning der vollständigen Parameter von LLMs zu skalieren.

Methodik der skalierten Evolutionären Strategien

Der Kern der neuen Methodik ist eine algorithmisch vereinfachte Variante der Natural Evolution Strategies (NES), ähnlich der von OpenAI entwickelten ES, mit spezifischen Anpassungen für die Skalierbarkeit. Das grundlegende ES-Schema umfasst folgende Schritte:

Initialisierung: Ein initiales LLM mit Parametern θ₀ und eine Belohnungsfunktion R(·) sind gegeben. Ziel ist es, θ zu optimieren, um R zu maximieren.
Iterative Optimierung: Für jede Iteration t werden N gestörte Modelle erzeugt.
Rauschproben: Für jedes gestörte Modell wird gaußsches Rauschen εₙ ~ N(0, I) gesampelt.
Belohnungsberechnung: Die Belohnung Rₙ für die gestörten Parameter R(θₜ₋₁ + σ ⋅ εₙ) wird berechnet, wobei σ die Rauschskala ist.
Belohnungsnormalisierung: Die gesammelten Belohnungswerte Rₙ werden normalisiert (z.B. mittels Z-Scores).
Parameteraktualisierung: Die Modellparameter werden aktualisiert: θₜ ← θₜ₋₁ + α ⋅ (1/N) Σ Rₙ εₙ, wobei α die Lernrate ist.

Um die Skalierung auf LLMs mit Milliarden von Parametern zu ermöglichen, wurden sieben wesentliche Implementierungsdetails integriert:

Rauschabruf mit Zufallsseeds: Statt große Rausch-Tensoren zu speichern, werden nur Zufallsseeds gespeichert. Das Rauschen wird bei Bedarf deterministisch aus den Seeds neu generiert, was den GPU-Speicherbedarf erheblich reduziert.
Parallele Evaluierungen: Gestörte Modelle werden parallel evaluiert, wobei jedem ein einzigartiger Zufallsseed zugewiesen wird.
Schichtweise In-Place-Störung und Wiederherstellung: Zur Verwaltung des Spitzen-GPU-Speichers werden Modellparameter schichtweise gestört, evaluiert und dann durch Subtraktion desselben Rauschens in-place wiederhergestellt. Dies erfordert nur temporären Speicher für einen einzelnen Schicht-Tensor.
Belohnungsnormalisierung: Belohnungen werden innerhalb jeder Iteration mittels Z-Scores normalisiert, um eine konsistente Skalierung zu gewährleisten.
Gierige Dekodierung: Gestörte Modelle verwenden gierige Dekodierung für die Antwortgenerierung während der Belohnungsevaluierung, um sicherzustellen, dass Leistungsunterschiede aus der Parameterraum-Exploration stammen.
Zerlegung der Parameteraktualisierung: Die aggregierte Parameteraktualisierung wird in-place, schichtweise und seed-weise durchgeführt, um den Spitzen-GPU-Speicher weiter zu reduzieren.
Lernraten-Verdauung: Der Term 1/σ wird zur Vereinfachung in α integriert.

Empirische Ergebnisse und Vorteile

Empirische Studien, durchgeführt an Modellen der Qwen2.5 (0.5B-7B) und LLaMA3 (1B-8B) Familien, zeigten die Leistungsfähigkeit von ES im Vergleich zu PPO und GRPO in zwei Aufgaben: einer symbolischen Denkaufgabe (Countdown) und einer Aufgabenstellung zur Verkürzung von Texten (Conciseness Fine-Tuning).

Ergebnisse auf der Countdown-Aufgabe:

Überlegene Genauigkeit: ES übertraf PPO und GRPO bei allen getesteten Modellen erheblich, mit einer durchschnittlichen Verbesserung von 36,4 % gegenüber dem Basismodell, verglichen mit 17,9 % für PPO und 21,3-21,4 % für GRPO.
Höhere Stichprobeneffizienz: ES benötigte weniger als 20 % der Trainingsstichprobenevaluierungen im Vergleich zu RL-Methoden, um eine ähnliche Leistung zu erzielen. Dies wird einer kleinen Populationsgröße von N=30 zugeschrieben, im Gegensatz zu früheren ES-Arbeiten, die N ≥ 10.000 verwendeten.
Effektivität bei kleineren Modellen: ES konnte selbst das kleinste Qwen2.5-0.5B-Modell erfolgreich auf 14,4 % Genauigkeit (von 0,1 % Basis) optimieren, während RL-Methoden nur 0,3 % erreichten.

Ergebnisse auf der Conciseness Fine-Tuning-Aufgabe:

Dominante Pareto-Front: ES erreichte bessere Kompromisse zwischen der Belohnung für Prägnanz und der KL-Divergenz vom Basismodell, was zu höheren Belohnungen bei geringerer Verhaltensdivergenz führte. Dies gelang ES ohne eine explizite KL-Divergenz-Strafe, die GRPO oft benötigte.
Robustheit gegen Reward Hacking: ES zeigte konsistent vernünftige Verhaltensweisen, im Gegensatz zu GRPO, das bei niedriger KL-Strafe manchmal unsinnige, kurze Antworten produzierte. Dies wird damit erklärt, dass ES eine Verteilung von Lösungen optimiert, die schwerer zu hacken ist als eine einzelne Lösung.
Zuverlässigkeit über Durchläufe: ES zeigte eine signifikant geringere Standardabweichung bei Belohnung und KL-Divergenz über mehrere unabhängige Durchläufe im Vergleich zu GRPO (z.B. 15,5-mal niedrigere Belohnungs-Standardabweichung), was auf konsistentere und vorhersehbarere Fine-Tuning-Ergebnisse hindeutet.

Erklärung der überlegenen Leistung

Die überlegene Leistung von ES wird auf entscheidende Unterschiede in der Explorationsstrategie zurückgeführt:

Parameterraum- vs. Aktionsraum-Exploration: ES injiziert Rauschen direkt in den Parameterraum, was zu einer geringeren Varianz in den Aktions-Trajektorien (Antworten) und einer zuverlässigeren Gradientenschätzung führt. Die schrittweise Rauschinjektion von RL im Aktionsraum führt zu höherer Varianz und fördert das Reward Hacking.
Optimierung der Lösungsverteilung: ES optimiert eine Verteilung von Lösungen, wodurch diese robuster gegenüber Störungen und adversariellen Angriffen sind und weniger anfällig für Reward Hacking sind als die Optimierung einer Einzellösung bei RL.

Die Autoren vermuten, dass ES besser für die zerklüfteten Belohnungslandschaften geeignet ist, die bei langfristigen, allein auf das Ergebnis ausgerichteten LLM-Zielen üblich sind. Die explizite gaußsche Faltung von ES im Parameterraum glättet diese Landschaft effektiv und erleichtert eine stabile und robuste Optimierung, während die Monte-Carlo-Abtastung von RL nur den Abtastprozess glättet, nicht unbedingt die zugrunde liegende Parameterraum-Landschaft.

Implikationen für die Zukunft des LLM Fine-Tunings

Diese Forschung etabliert Evolutionäre Strategien als eine vielversprechende Alternative zu Reinforcement Learning für das Fine-Tuning von LLMs. Die neue Methodik eröffnet neue Wege für die Parameterraum-Exploration, das Fine-Tuning mit alleiniger Ergebnisorientierung und das großskalige verteilte Post-Training. Durch die Eliminierung der Notwendigkeit von Gradientenberechnungen vereinfacht ES die Trainingspipeline und liefert gleichzeitig starke Ergebnisse in Bezug auf Robustheit, Effizienz und Stabilität. Dies könnte besonders vorteilhaft sein für Aufgaben, die eine präzise Anpassung an komplexe, schwer zu formalisierende Belohnungsfunktionen erfordern oder eine hohe Zuverlässigkeit über verschiedene Anwendungsfälle hinweg. Die Fähigkeit von ES, effektiver in komplexen Parameterlandschaften zu navigieren und dabei weniger anfällig für unerwünschte Nebeneffekte zu sein, könnte die Entwicklung der nächsten Generation von KI-Systemen maßgeblich beeinflussen und das Fine-Tuning von LLMs zugänglicher und anpassungsfähiger gestalten.

Bibliographie

- [2509.24372] Evolution Strategies at Scale: LLM Fine-Tuning Beyond Reinforcement Learning, arXiv - [Literature Review] Evolution Strategies at Scale: LLM Fine-Tuning Beyond Reinforcement Learning, The Moonlight - A New Fine-Tuning Approach for LLMs Using Evolution Strategies, Cognizant - LLM Fine-Tuning Beyond Reinforcement Learning, Slashpage (Haebom) - Fine-Tuning LLMs with Reinforcement Learning, ADaSci - Algorithm Discovery With LLMs: Evolutionary Search Meets ..., arXiv - Large Language Models As Evolution Strategies, ResearchGate - [2503.13447] (no title), arXiv - [2503.05362] (no title), arXiv - [2509.08269] (no title), arXiv