Reinforcement World Model Learning für die Verbesserung von LLM-basierten Agenten

Kategorien:

No items found.

Freigegeben:

February 6, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Reinforcement World Model Learning für LLM-basierte Agenten

Das Wichtigste in Kürze

Große Sprachmodelle (LLMs) zeigen eine starke Leistung in sprachzentrierten Aufgaben, sind jedoch in agentischen Umgebungen, die die Antizipation von Handlungskonsequenzen und die Anpassung an Umweltdynamiken erfordern, oft eingeschränkt.
Reinforcement World Model Learning (RWML) ist eine selbstüberwachte Methode, die aktionskonditionierte Weltmodelle für LLM-basierte Agenten auf textuellen Zuständen unter Verwendung von Sim-to-Real-Gap-Rewards lernt.
RWML stimmt simulierte nächste Zustände des Modells mit tatsächlich beobachteten nächsten Zuständen aus der Umgebung ab und fördert die Konsistenz zwischen internen Weltsimulationen und realen Umgebungsdynamiken in einem vortrainierten Embedding-Raum.
Im Gegensatz zur Token-Vorhersage, die die Genauigkeit auf Token-Ebene priorisiert, bietet RWML ein robusteres Trainingssignal und ist weniger anfällig für "Reward Hacking" als "LLM-as-a-Judge"-Methoden.
RWML verbessert die Leistung von Basismodellen signifikant, selbst ohne die Verwendung von Expertendaten oder aufgabenbezogenen Erfolgsbelohnungen.
In Kombination mit aufgabenbezogenen Erfolgsbelohnungen übertrifft RWML das direkte RL mit aufgabenbezogenen Erfolgsbelohnungen und erreicht die Leistung von Expertendaten-Training.
RWML-trainierte Modelle zeigen eine geringere Anfälligkeit für katastrophales Vergessen im Vergleich zu WM SFT.
Die Fähigkeit von RWML, Weltmodellwissen zu erlernen und auf die Entscheidungsfindung zu übertragen, ist von der Leistungsfähigkeit des Basismodells abhängig.

Große Sprachmodelle (LLMs) haben in den letzten Jahren beeindruckende Fortschritte in einer Vielzahl von sprachzentrierten Aufgaben erzielt, darunter Frage-Antwort-Systeme, Codegenerierung und mehrstufiges Schlussfolgern. Diese Erfolge haben zu einem wachsenden Interesse an der Nutzung von LLMs als autonome Agenten geführt, die mit realitätsnahen Umgebungen interagieren und komplexe, langfristige Aufgaben bewältigen können. Trotz ihrer starken sprachlichen und logischen Fähigkeiten stoßen LLM-basierte Agenten jedoch in vielen agentischen Szenarien an ihre Grenzen, insbesondere wenn es darum geht, Handlungskonsequenzen zu antizipieren und sich an dynamische Umgebungen anzupassen. Diese Diskrepanz hebt den Unterschied zwischen der sprachlichen Kompetenz, die LLMs durch Vortraining erwerben, und der agentischen Intelligenz hervor, die für effektive Interaktionen erforderlich ist.

Herausforderungen in agentischen Umgebungen

Ein wesentlicher Grund für diese Einschränkung liegt in der Fehlausrichtung zwischen den gängigen Vortrainingszielen und den Anforderungen agentischer Anwendungsfälle. Standard-Vortrainingsziele, wie die Vorhersage des nächsten Tokens in statischen Textkorpora, konzentrieren sich auf das Sprachverständnis und die Sprachgenerierung. Im Gegensatz dazu agieren moderne LLM-basierte Agenten in komplexen Umgebungen mit langen Horizonten, in denen eine erfolgreiche Aufgabenbewältigung ein Schlussfolgern über den aktuellen Zustand und die potenzielle Entwicklung der Umgebung als Reaktion auf Aktionen erfordert. Die Fähigkeit, mögliche zukünftige Ergebnisse der eigenen Handlungen zu modellieren, ist ein zentraler Aspekt biologischer Intelligenz. Studien in der Neurowissenschaft und Psychologie zeigen, dass Menschen, Tiere und intelligente Systeme interne Weltmodelle nutzen, um effizient zu schlussfolgern, zu planen, zu explorieren und aus wenigen Versuchen zu lernen. Diese Weltmodellierungsfähigkeit wird auch für effektives Schlussfolgern und Planen in LLM-basierten Agenten als unerlässlich angesehen. Bisherige Ansätze zur Ausstattung von LLM-basierten Agenten mit Weltmodellierungsfähigkeiten konzentrierten sich oft darauf, LLMs mithilfe der Vorhersage des nächsten Tokens (Supervised Fine-Tuning, SFT) darauf zu trainieren, nächste Zustände vorherzusagen. Diese Methoden sind zwar in einigen Szenarien effektiv, stehen jedoch vor Skalierbarkeitsherausforderungen:

Sie sind stark auf hochwertige Daten von Experten oder leistungsstarken LLMs angewiesen.
Sie basieren auf SFT, das die Genauigkeit auf Token-Ebene (d.h. die genaue Reproduktion von Formulierungen) über die semantische Äquivalenz priorisiert und zu einem Modellkollaps führen kann.

Reinforcement World Model Learning (RWML)

Ein neuer Forschungsansatz schlägt Reinforcement World Model Learning (RWML) vor, eine selbstüberwachte Trainingsmethode, die auf Reinforcement Learning (RL) basiert. RWML lernt aktionskonditionierte Weltmodelle für LLM-basierte Agenten. Anstatt die Token-Level-Fidelity mit SFT zu optimieren, trainiert RWML LLMs darauf, die Diskrepanz zwischen simulierten nächsten Zuständen, die vom Modell erzeugt werden, und realisierten nächsten Zuständen, die aus der Umgebung beobachtet werden, zu minimieren. Diese Messung erfolgt in einem vortrainierten Embedding-Raum. Diese Sim-to-Real-Ausrichtung fördert die semantische Konsistenz zwischen dem internen Weltmodell des Agenten und der realen Umgebungsdynamik, während aufgabenrelevante Übergänge erhalten bleiben, was sie für nachfolgende Entscheidungsfindungen geeignet macht.

Methodik von RWML

Die Kernidee von RWML besteht darin, dass ein LLM nicht nur Aktionen ausführt, sondern auch die Konsequenzen dieser Aktionen vorhersagen kann. Dies geschieht durch ein Belohnungssystem, das die Ähnlichkeit zwischen den vom Modell vorhergesagten nächsten Zuständen und den tatsächlich beobachteten nächsten Zuständen bewertet.

Notationen

Aufgaben in komplexen Umgebungen werden typischerweise als Markov-Entscheidungsprozesse formuliert. Ein LLM-gestützter Agent erhält eine Aufgabenanweisung und eine Beobachtung aus der Umgebung, generiert eine Aktion und erhält eine neue Beobachtung. Dieser Interaktionsprozess wird wiederholt, bis die Aufgabe abgeschlossen oder eine maximale Schrittzahl erreicht ist. Die generierten Zustände werden als "simulierte Zustände" bezeichnet, um sie von den realen Umgebungszuständen zu unterscheiden.

RWML-Ansatz

RWML ist eine skalierbare, selbstüberwachte Trainingsmethode, bei der der Agent genaues Weltmodellwissen aus den Umgebungsdynamiken erlernt, bevor eine weitere Feinabstimmung mit aufgabenbezogenen Erfolgsbelohnungen erfolgt. RWML trainiert eine LLM-Politik, um auch die Konsequenzen eines nächsten Zustands zu begründen, gegeben eine Aktion und eine Historie vergangener Interaktionen. Zur Bewertung der Qualität der Vorhersage wird eine binäre Belohnungsfunktion verwendet, die den Abstand zwischen dem vorhergesagten nächsten Zustand und dem tatsächlichen nächsten Zustand vergleicht. Dieser Abstand wird hauptsächlich mithilfe eines Embedding-Modells und der Kosinus-Ähnlichkeit berechnet. Die Optimierung dieser Belohnung erfolgt mittels GRPO (Group-in-Group Policy Optimization). Der gesamte Prozess erfordert keine Expertendaten, stärkere LLMs oder aufgabenbezogene Erfolgsbelohnungen. Um Trainingsdaten für RWML zu sammeln, wird das Zielmodell direkt verwendet, um Rollouts mit der Umgebung zu generieren. Diese Rollouts werden dann in Tripel aus aktuellem Zustand, Aktion und nächstem Zustand umgewandelt. Um die Abdeckung und Vielfalt zu verbessern, werden mehrere Rollouts pro Trainingsaufgabe durchgeführt. Um das Modell darauf zu konzentrieren, nicht-triviales Weltmodellwissen zu erlernen, werden "zu einfache" Samples im Datensatz untersamplet. Dies geschieht, indem zunächst ein separates LLM mit SFT trainiert wird, das nächste Zustände vorhersagen kann. Dieses Modell wird dann verwendet, um vorhergesagte nächste Zustände für den restlichen Datensatz zu generieren und Trainingssamples zu untersampleln, die konsistent eine hohe Belohnung erzielen.

Experimente und Ergebnisse

Die Wirksamkeit von RWML wurde auf zwei weit verbreiteten Langzeit-Agenten-Benchmarks evaluiert: ALFWorld und τ²Bench. Beide Umgebungen erfordern ein präzises Verständnis der Welt und der Werkzeuge für eine effektive Planung und Aufgabenbewältigung.

ALFWorld

ALFWorld ist eine textbasierte, verkörperte Umgebung, in der der Agent Objekte lokalisieren und mit ihnen interagieren muss, um Haushaltsaufgaben mithilfe natürlicher Sprachbefehle zu erledigen.

τ²Bench

τ²Bench ist eine Umgebung für die verschachtelte Werkzeugnutzung, in der das Modell als Kundendienstagent agiert und Werkzeugaufrufe verwendet, um Probleme zu lösen, während es mit einem simulierten Benutzer kommuniziert.

Hauptergebnisse

RWML zeigte sich als effektive selbstüberwachte Methode, die ausschließlich aus Interaktionsdaten trainiert wird. Ohne den Einsatz von Expertendaten, starken LLMs oder aufgabenbezogenen Erfolgsbelohnungen verbesserte RWML die agentische Fähigkeit im Vergleich zum Basismodell signifikant. Auf ALFWorld wurde eine Steigerung von 19,6 Punkten und auf τ²Bench von 7,9 Punkten erzielt. In Kombination mit aufgabenbezogenen Erfolgsbelohnungen (d.h. Policy RL) übertrafen die RWML-Modelle alle anderen trainingsbasierten Baselines. Insbesondere auf ALFWorld übertrafen die Modelle sogar Ansätze, die Expertendaten oder starke LLMs verwenden. Auf τ²Bench erreichten die Modelle den zweitbesten Gesamtwert, obwohl keine Expertendaten oder starken LLMs verwendet wurden. Dies unterstreicht die Effektivität von RWML als skalierbares, selbstüberwachtes Design, das eine vielversprechende Richtung für "Mid-Training"-Algorithmen darstellt, um die Leistung von LLM-basierten Agenten weiter zu verbessern.

Weniger Vergessen mit RWML

Eine Untersuchung der Anfälligkeit von RL und SFT für katastrophales Vergessen im Kontext des Weltmodell-Lernens zeigte, dass RWML im Vergleich zu WM SFT auf nahezu allen Benchmarks zu weniger Modellvergessen führt. Dies wird mit früheren Erkenntnissen in Einklang gebracht, dass Online-RL vorhandenes Wissen und Fähigkeiten aufgrund seiner On-Policy-Natur signifikant besser bewahrt als SFT.

Ablationsstudien

Ablationsstudien, die den Beitrag verschiedener RWML-Komponenten untersuchten, zeigten, dass alle Komponenten der Methode wichtig für die Verbesserung der Modellleistung sind. Es wurde festgestellt, dass schwächere Modelle anfälliger für Datenqualität und verrauschte Belohnungsfunktionen sind. Zudem erwies sich "LLM-as-a-judge" als unzuverlässig und potenziell anfällig für "Reward Hacking" während des Trainings. Das Untersampleln "einfacher" Trainingssamples erwies sich als vorteilhaft, um die Modellleistung weiter zu verbessern.

Diskussion

Auswirkungen von RWML auf die Entscheidungsfindung

Qualitative und quantitative Analysen des Entscheidungsverhaltens von Modellen vor und nach dem RWML-Training zeigen, dass RWML-trainierte Modelle genauere und effizientere Entscheidungen treffen, indem sie ihr verbessertes Wissen über die Umgebung nutzen. Zum Beispiel konnte das Modell in ALFWorld korrekt vorhersagen, dass ein "Messer" am wahrscheinlichsten auf einer "Arbeitsplatte" und nicht an anderen Orten zu finden ist, wodurch die Aufgabe innerhalb von fünf Schritten abgeschlossen wurde. In τ²Bench berücksichtigte das Modell korrekt die Möglichkeit, dass der Flugmodus aktiviert ist – ein Fall, der vom Basismodell übersehen wurde. Quantitativ wurde festgestellt, dass RWML die Generierung ungültiger/ineffektiver Aktionen auf beiden Benchmarks effektiv reduziert, obwohl es nicht explizit darauf trainiert wurde. Auf ALFWorld sank der Anteil ungültiger oder ineffizienter Aktionen nach RWML von 59,30 % auf 39,45 %. Ähnlich sank auf τ²Bench der Anteil ungültiger Werkzeugaufrufe von 24,90 % auf 8,84 % pro Werkzeugaufruf. Diese Ergebnisse zeigen, dass RWML die Entscheidungsfähigkeit eines LLM in agentischen Umgebungen signifikant verbessert.

Analyse der Gewichtsänderungen

Zur Analyse der Wirksamkeit von RWML wurde untersucht, wie es die Modellparameter während des Trainings umgestaltet. Es zeigte sich, dass RWML im Vergleich zu WM SFT deutlich weniger Parameteränderungen über die Schichten hinweg induziert. Dies deutet darauf hin, dass RWML aufgabenrelevante Informationen mit einem kleineren und gezielteren Satz von Updates kodiert. Dieses Verhalten legt nahe, dass RWML auf eine parameter-effizientere und strukturell konservativere Weise lernt und weit verbreitete Modifikationen des vortrainierten Repräsentationsraums vermeidet. Dieses kompakte Update-Verhalten erklärt auch, warum RWML sich gut in nachfolgendes Policy Learning integrieren lässt. Nach Policy RL bleiben die resultierenden Gewichtsänderungsverhältnisse bemerkenswert nah an denen von Policy RL, die direkt auf das Basismodell angewendet wird. Im Gegensatz dazu zeigen Modelle, die mit WM SFT initialisiert wurden, nach der Policy-Optimierung deutlich höhere Änderungsverhältnisse, was auf stärkere parametrische Interferenzen hindeutet.

Einfluss der Basismodell-Fähigkeit

Auf der anspruchsvollen τ²Bench wurde festgestellt, dass die Fähigkeit, Weltmodellwissen von RWML zu erlernen und auf die Entscheidungsfindung zu übertragen, von der Leistungsfähigkeit des Basismodells abhängt. Schwächere Modelle (z.B. Qwen2.5-7B) hatten Schwierigkeiten, Weltwissen auf die Entscheidungsfindung zu übertragen, während stärkere Modelle (Qwen3-8B und Qwen3-30B-A3B) erhebliche Fortschritte zeigten. Dies deutet darauf hin, dass RWML am effektivsten für ausreichend starke Basismodelle ist.

Zusammenfassung

RWML ist eine skalierbare, selbstüberwachte Methode, die das Umgebungsverständnis und die Entscheidungsfähigkeit von LLM-basierten Agenten verbessert, bevor nachgelagertes RL mit aufgabenbezogenen Erfolgsbelohnungen stattfindet. Ohne Expertendaten oder aufgabenbezogene Signale trainiert RWML das LLM als aktionskonditioniertes Weltmodell, indem es die simulierten nächsten Zustände mit den beobachteten Umgebungszuständen in einem vortrainierten Embedding-Raum abgleicht. Die Evaluierung auf ALFWorld und τ²Bench zeigte signifikante Leistungssteigerungen nur durch Interaktionsdaten. In Kombination mit aufgabenbezogenen Erfolgsbelohnungen im Policy RL übertrifft die Methode das direkte Policy RL auf beiden Benchmarks und erreicht die Leistung von Expertendaten-Training. Diese Arbeit eröffnet neue Wege für skalierbare, selbstüberwachte Trainingsmethoden zur Weiterentwicklung von LLM-basierten Agenten im Zeitalter des agentischen Reinforcement Learnings. Bibliography - Yu, X., Peng, B., Xu, R., Shen, Y., He, P., Nath, S., Singh, N., Gao, J., & Yu, Z. (2026). Reinforcement World Model Learning for LLM-based Agents. arXiv preprint arXiv:2602.05842. - Wang, K., Zhang, P., Wang, Z., Gao, Y., Li, L., Wang, Q., Chen, H., Wan, C., Lu, Y., Yang, Z., Wang, L., Krishna, R., Wu, J., Fei-Fei, L., Choi, Y., & Li, M. (2025). VAGEN: Reinforcing World Model Reasoning for Multi-Turn VLM Agents. arXiv preprint arXiv:2510.16907. - Wu, J., Yin, S., Feng, N., & Long, M. (2025). RLVR-World: Training World Models with Reinforcement Learning. Advances in Neural Information Processing Systems. - Tang, H., Key, D., & Ellis, K. (2025). WorldCoder, a Model-Based LLM Agent: Building World Models by Writing Code and Interacting with the Environment. Neural Information Processing Systems (NeurIPS 2024). - Yang, C., Wang, X., Zhang, Q., Jiang, Q., & Huang, X. (2025). Efficient Integration of External Knowledge to LLM-based World Models via Retrieval-Augmented Generation and Reinforcement Learning. Findings of the Association for Computational Linguistics: EMNLP 2025. - Li, Z., Hu, Y., & Wang, W. (2025). Encouraging Good Processes Without the Need for Good Answers: Reinforcement Learning for LLM Agent Planning. Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing: Industry Track.