Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Leistungsfähigkeit großer Sprachmodelle (Large Language Models, LLMs) hat in den letzten Jahren erheblich zugenommen und ihr Anwendungsspektrum erweitert sich stetig. Insbesondere im Bereich der agentischen Anwendungen, bei denen LLMs als autonome Entscheidungsträger agieren, weckt ihr Potenzial großes Interesse. Eine zentrale Hypothese besagt, dass LLMs durch die Nutzung von Common Sense und Chain-of-Thought (CoT)-Reasoning komplexe Domänen effektiv erkunden und effizient lösen können. Jüngste Studien beleuchten jedoch, dass LLM-Agenten in Entscheidungsszenarien häufig suboptimal agieren und Schwierigkeiten bei der Exploration haben. Dieser Artikel analysiert die Ursachen dieser suboptimalen Leistung und untersucht, wie Reinforcement Learning Fine-Tuning (RLFT) auf selbstgenerierten CoT-Rationalen diese Herausforderungen mindern kann.
Die Forschung identifiziert primär drei Hauptursachen für das suboptimale Verhalten von LLMs in Entscheidungsszenarien:
Die Gier manifestiert sich darin, dass LLMs die besten bisher gesehenen Aktionen übermäßig bevorzugen, was zu einer unzureichenden Exploration des Handlungsraums führt. Dies führt dazu, dass ein signifikanter Teil des potenziellen Aktionsraums unerforscht bleibt. Beispielsweise zeigen Modelle wie Gemma2, dass selbst größere Modelle mit CoT-Fähigkeiten nur einen Bruchteil der verfügbaren Aktionen abdecken, was zu einem hohen kumulativen Regret führt.
Eine weitere häufige Fehlerquelle ist die Frequenzverzerrung, bei der LLMs dazu neigen, die am häufigsten im Kontext vorkommenden Aktionen zu wiederholen, selbst wenn diese nur geringe Belohnungen liefern. Kleinere Modelle sind von dieser Verzerrung stärker betroffen, während größere Modelle sie tendenziell abschwächen, jedoch weiterhin zu gierigem Verhalten neigen. Dies deutet darauf hin, dass die Frequenzverzerrung ein Artefakt des überwachten Vortrainings sein könnte und RL als Gegenmaßnahme dienen kann.
Die Knowing-Doing-Lücke beschreibt die Diskrepanz zwischen dem Wissen eines Modells über die optimale Vorgehensweise und seiner tatsächlichen Fähigkeit, dieses Wissen in Handlungen umzusetzen. LLMs können beispielsweise den Upper-Confidence-Bound (UCB)-Algorithmus korrekt beschreiben und die notwendigen Berechnungen durchführen, wählen aber dennoch häufig eine gierige Aktion anstelle der optimalen Aktion. Dies unterstreicht die Herausforderung, dass Modelle zwar wissen, "was" zu tun ist, aber Schwierigkeiten haben, "wie" sie es tun sollen.
Um diese Mängel zu beheben, wird Reinforcement Learning Fine-Tuning (RLFT) auf selbstgenerierten CoT-Rationalen vorgeschlagen. RLFT ermöglicht es dem Modell, seinen Denkprozess iterativ zu verfeinern und CoT-Muster sowie Aktionen zu bevorzugen, die zu höheren Belohnungen führen. Die Experimente, die mit Gemma2-Modellen (in den Größen 2B, 9B und 27B) in Multi-Armed-Bandit (MAB)-Szenarien, kontextuellen Banditen und textbasiertem Tic-Tac-Toe durchgeführt wurden, zeigen vielversprechende Ergebnisse:
RLFT reduziert das kumulative Regret über verschiedene Umgebungen und Modellgrößen hinweg. Es schließt die Leistungslücke zu größeren Modellen und optimalen Algorithmen wie UCB. Dies deutet darauf hin, dass die Stärkung selbstgenerierter CoT-Rationalen in Richtung von Umgebungsbelohnungen die Leistung in einfachen Entscheidungsszenarien verbessert.
RLFT führt zu einer erhöhten Aktionsabdeckung und mindert somit die Gier der Modelle. Nach einer anfänglichen Phase der Verringerung der Aktionsabdeckung lernt der Agent durch weiteres Fine-Tuning, den Aktionsraum besser zu erkunden. Ebenso wirkt RLFT der Frequenzverzerrung entgegen, indem es den Anteil häufiger Aktionen reduziert und die Diversität der gewählten Aktionen erhöht, auch wenn die Verzerrung bei sehr häufigen Wiederholungen nicht vollständig beseitigt wird.
RLFT ist in der Lage, die Knowing-Doing-Lücke zu verringern. Obwohl LLMs wissen, wie eine Aufgabe zu lösen ist, scheitern sie oft an der Umsetzung. Durch RLFT lernen die Modelle, ihr Wissen effektiver in Handlungen umzusetzen, was sich in einer verbesserten Leistung in Umgebungen wie Tic-Tac-Toe zeigt.
Obwohl RLFT die Exploration fördert, bleibt die Aktionsabdeckung oft suboptimal. Daher wurden verschiedene klassische und LLM-spezifische Explorationsmechanismen untersucht:
RLFT verbessert die Gewinnrate von LLMs in zustandsbehafteten Umgebungen wie Tic-Tac-Toe erheblich. Dies gilt auch gegenüber stärkeren Gegnern wie Monte Carlo Tree Search (MCTS). Die Bereitstellung der gültigen Aktionen im Kontext ist hier entscheidend, da das Modell sonst Schwierigkeiten hat, die richtigen Aktionen auszuwählen.
CoT-Reasoning ist sowohl für die In-Context Learning (ICL)-Leistung als auch für RLFT von entscheidender Bedeutung. Ohne CoT erreicht RLFT kaum die Leistung von ICL mit CoT, was die Funktion von CoT als vitalen Explorations- und Rationalisierungsmechanismus für die Entscheidungsfindung unterstreicht.
Das Trainieren von LLMs auf Expertendaten durch Supervised Fine-Tuning (SFT) kann ebenfalls zu einer Leistung führen, die mit der von UCB vergleichbar ist. Thought Cloning (TC), das Expertenaktionen und den zugehörigen Denkprozess umfasst, ist insbesondere in komplexeren Entscheidungsszenarien vielversprechend.
Eine Erhöhung der dem Agenten zur Verfügung stehenden „Denkzeit“ (Generierungsbudget) während des RLFT führt zu einer konsistenten Leistungsverbesserung. Dies spiegelt wider, dass der Agent die zusätzlichen Token effektiv nutzt, um seine Entscheidungen zu rationalisieren. Eine größere Denkzeit geht jedoch mit erheblichen Rechenkosten einher, insbesondere bei mehrstufigen Entscheidungsprozessen.
Die Analyse zeigt, dass LLMs in Entscheidungsszenarien häufig unter Gier, Frequenzverzerrung und der Knowing-Doing-Lücke leiden. Reinforcement Learning Fine-Tuning (RLFT) auf selbstgenerierten Chain-of-Thought (CoT)-Rationalen erweist sich als effektiver Ansatz, um diese Probleme zu mindern und die Entscheidungsfähigkeit von LLMs zu verbessern. Die Integration klassischer Explorationsmechanismen und LLM-spezifischer Strategien kann die Exploration weiter optimieren. CoT-Reasoning und ausreichend „Denkzeit“ sind dabei entscheidende Faktoren für den Erfolg. Zukünftige Forschungsarbeiten sollten die Explorationsfähigkeiten von LLM-Agenten in komplexeren Umgebungen untersuchen, die eine zielgerichtete Exploration erfordern. Auch die Optimierung der Balance zwischen Leistungssteigerung und Rechenkosten bei erhöhter Denkzeit bleibt ein wichtiges Forschungsfeld, möglicherweise durch den Einsatz moderner rekurrenten Architekturen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen