Potenziale des On-Policy Reinforcement Learning für kollaborative Large Language Models

Kategorien:

No items found.

Freigegeben:

October 17, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Eine neue Studie beleuchtet die Potenziale von On-Policy Reinforcement Learning (RL) für kollaborative Large Language Models (LLMs).
Das vorgeschlagene AT-GRPO-Framework ermöglicht es Multi-Agenten-Systemen (MAS), ihre Leistungsfähigkeit durch rollenbasierte Orchestrierung und umweltbasierte Belohnungen zu steigern.
AT-GRPO adressiert spezifische Herausforderungen bei der Anwendung von On-Policy RL auf MAS, insbesondere die Dynamik von Prompts pro Rolle und Runde.
Die Forschung zeigt signifikante Leistungssteigerungen in verschiedenen Aufgabenbereichen wie Planung, Kodierung und Mathematik.
Das Framework fördert eine verbesserte Zusammenarbeit und Problemlösungsfähigkeiten bei LLMs, was über die Möglichkeiten einzelner Modelle hinausgeht.

Die Forschung im Bereich der Künstlichen Intelligenz schreitet stetig voran, und mit ihr die Entwicklung immer leistungsfähigerer Modelle. Ein besonders vielversprechender Ansatz zur Steigerung der Fähigkeiten von Large Language Models (LLMs) liegt in der Integration von Multi-Agenten-Systemen (MAS) und Reinforcement Learning (RL). Eine aktuelle Arbeit, die auf arXiv veröffentlicht und auf Plattformen wie Hugging Face diskutiert wird, beleuchtet ein neues Framework namens AT-GRPO, das speziell für diese kollaborative Anwendung von LLMs entwickelt wurde. Dieser Artikel wird die Kernaspekte dieser Forschung objektiv analysieren und die Implikationen für die B2B-Anwendung von KI-Tools aufzeigen.

Synergien durch Multi-Agenten-Systeme und Reinforcement Learning

Large Language Models haben in den letzten Jahren beeindruckende Fortschritte gemacht, insbesondere in der Textgenerierung und im Verständnis komplexer Anfragen. Ihre Fähigkeiten können jedoch weiter optimiert werden, indem sie in Multi-Agenten-Systemen agieren und durch Reinforcement Learning trainiert werden. MAS ermöglichen es LLMs, Aufgaben durch rollenbasierte Orchestrierung zu verbessern, während RL durch die Nutzung von Umgebungsbelohnungen das Lernen stärkerer Strategien fördert. Die Kombination dieser Ansätze birgt das Potenzial, die Problemlösungsfähigkeiten von LLMs auf ein neues Niveau zu heben.

Herausforderungen des On-Policy Reinforcement Learning in MAS

Die Anwendung von On-Policy Reinforcement Learning auf Multi-Agenten-Systeme ist jedoch nicht ohne Herausforderungen. Standardmäßige Annahmen, die bei der Optimierung von On-Policy-Algorithmen wie GRPO (Generalized Advantage Estimation for Policy Optimization) getroffen werden, brechen in MAS oft zusammen. Dies liegt daran, dass die Prompts je nach Rolle und Interaktionsrunde variieren, was eine dynamische Anpassung der Lernstrategien erfordert. Zudem muss der Trainings-Stack sowohl MAS-Workflow-Rollouts als auch On-Policy-Updates für Einzel- und Multi-Policy-Modelle unterstützen können. Diese Komplexitäten erfordern maßgeschneiderte algorithmische Lösungen und robuste Trainingssysteme.

AT-GRPO: Ein maßgeschneiderter Ansatz für kollaborative LLMs

Im Zentrum der vorgestellten Forschung steht AT-GRPO (Agent- and Turn-wise Grouped Reinforcement Learning for Policy Optimization). Dieses Framework wurde entwickelt, um die spezifischen Herausforderungen von On-Policy RL in Multi-Agenten-Systemen zu adressieren. Es umfasst zwei Hauptkomponenten:

Agenten- und rundenweises gruppiertes RL-Algorithmus: Dieser Algorithmus ist speziell auf MAS zugeschnitten und berücksichtigt die Variationen in den Prompts über Rollen und Runden hinweg.
Trainingssystem: Ein robustes System, das sowohl Einzel- als auch Multi-Policy-Regime unterstützt, um die Flexibilität und Skalierbarkeit des Trainings zu gewährleisten.

Die Implementierung von AT-GRPO zielt darauf ab, die Zusammenarbeit zwischen LLMs explizit zu fördern und die Leistungsfähigkeit von Multi-Agenten-LLM-Frameworks besser auszuschöpfen. Dies wird durch einen "Verifier" oder "Scorer" erreicht, der die Antworten und Diskussionen der LLMs bewertet und Belohnungen basierend auf der Korrektheit und persuasiven Qualität der Interaktionen vergibt. Diese Belohnungen dienen als Co-Trainings-Signal und werden durch Multi-Agenten-RL maximiert.

Empirische Evidenz und Leistungssteigerungen

Die Wirksamkeit von AT-GRPO wurde in einer Reihe von Experimenten über verschiedene Aufgabenbereiche hinweg demonstriert:

Langfristige Planung: Bei Aufgaben, die eine langfristige Planung erfordern, konnte AT-GRPO die Genauigkeit signifikant steigern. Im Vergleich zu einer Single-Agent-RL-Baseline, die zwischen 14,0 % und 47,0 % lag, erreichte AT-GRPO eine Genauigkeit von 96,0 % bis 99,5 %.
Kodierungsaufgaben: Hier wurden durchschnittliche Leistungssteigerungen von 3,87 % bis 7,62 % erzielt.
Mathematische Aufgaben: In diesem Bereich konnte eine Verbesserung von 9,0 % bis 17,93 % verzeichnet werden.

Diese Ergebnisse deuten darauf hin, dass AT-GRPO nicht nur die Fähigkeit von LLMs zur Zusammenarbeit verbessert, sondern auch deren Leistung in komplexen, reasoning-intensiven Aufgaben deutlich steigert. Die Studie hebt hervor, dass das Training einzelner LLMs allein nicht ausreicht, um effektive Zusammenarbeit zu induzieren; vielmehr ist ein Co-Training mehrerer Agenten notwendig.

Transferierbarkeit der Kollaborationsfähigkeiten

Ein weiteres wichtiges Ergebnis der Studie ist die Transferierbarkeit der durch AT-GRPO erworbenen Kollaborationsfähigkeiten. Modelle, die auf einem Datensatz trainiert wurden, zeigten auch bei Aufgaben aus anderen, ungesehenen Datensätzen eine verbesserte Kollaborationsleistung. Dies deutet darauf hin, dass die Modelle eine allgemeingültige "Kollaborationsfähigkeit" erwerben, die über spezifische Aufgabenbereiche hinaus anwendbar ist.

Zusammenarbeit heterogener LLMs

Die Forschung untersuchte auch die kollaborative Lernfähigkeit zwischen verschiedenen Basismodellen, z.B. Paaren aus Phi-3 (3.4B) und Qwen2.5 (3B) oder Phi-3 (3.4B) und Llama-3 (8B). Die Ergebnisse zeigten, dass die synergistischen Effekte besonders ausgeprägt waren, wenn Modelle mit unterschiedlichen Stärken zusammenarbeiteten. Dies legt nahe, dass diverse Modellpartnerschaften bessere Ergebnisse liefern können als die Leistung einzelner Modelle, wenn AT-GRPO eingesetzt wird.

Grenzen von Supervised Fine-Tuning (SFT)

Interessanterweise zeigte die Studie, dass naives Supervised Fine-Tuning (SFT) mit qualitativ hochwertigen Kollaborationsbeispielen nicht ausreichte, um kollaborative Verhaltensweisen zu induzieren. Im Gegenteil, SFT führte sogar zu einem Leistungsabfall im Vergleich zu den "Off-the-shelf"-Modellen. Dies unterstreicht die Notwendigkeit expliziter Multi-Agenten-RL-Ansätze wie AT-GRPO, um echte kollaborative Fähigkeiten zu entwickeln.

Ausblick und Implikationen für Unternehmen

Die Ergebnisse dieser Forschung haben weitreichende Implikationen für Unternehmen, die KI-Tools einsetzen oder entwickeln. Die Fähigkeit von LLMs, in Multi-Agenten-Systemen effektiv zusammenzuarbeiten und durch Reinforcement Learning ihre Leistung zu steigern, eröffnet neue Möglichkeiten für komplexe Problemlösungen in verschiedenen Branchen. Für B2B-Kunden von KI-Unternehmen wie Mindverse bedeutet dies unter anderem:

Verbesserte Automatisierung: Komplexe Geschäftsprozesse, die bisher manuelle Interventionen erforderten, könnten durch kollaborative LLMs effizienter automatisiert werden.
Höhere Genauigkeit bei komplexen Aufgaben: Insbesondere in Bereichen wie Finanzanalyse, naturwissenschaftlicher Forschung oder juristischen Prüfungen, wo präzises Reasoning entscheidend ist, können kollaborative LLMs zu deutlich besseren Ergebnissen führen.
Anpassungsfähigkeit und Transferlernen: Die Fähigkeit der Modelle, erlernte Kollaborationsfähigkeiten auf neue, ungesehene Aufgaben zu übertragen, reduziert den Aufwand für die Anpassung an neue Anwendungsfälle.
Effizientere Ressourcennutzung: Durch die Zusammenarbeit heterogener Modelle können Unternehmen möglicherweise bestehende LLM-Ressourcen optimal nutzen und Synergien schaffen.

Es ist jedoch auch wichtig, die Limitationen und potenziellen Risiken zu beachten. Die Qualität der Ergebnisse hängt stark von den verwendeten Prompts ab. Zudem wurde die Forschung primär an kleineren LLMs durchgeführt; die Verhaltensweisen bei größeren Modellen könnten variieren. Auch das Risiko von "Reward Hacking" – dem Ausnutzen des Belohnungssystems durch die KI – muss stets im Blick behalten werden. Bei der Anwendung in realen Szenarien ist zudem die Möglichkeit von bösartigen Agenten zu berücksichtigen, die durch Kollaboration unbeabsichtigt schädliche Ergebnisse erzielen könnten.

Zusammenfassend lässt sich sagen, dass AT-GRPO einen vielversprechenden Weg aufzeigt, die Fähigkeiten von LLMs durch Multi-Agenten-Reinforcement Learning zu erweitern. Für Unternehmen, die auf der Suche nach fortschrittlichen KI-Lösungen sind, bietet dieser Ansatz das Potenzial für signifikante Leistungssteigerungen und eine verbesserte Problemlösungsfähigkeit.

Bibliography

- Zhao, Y., Hu, L., Wang, Y., Hou, M., Zhang, H., Ding, K., & Zhao, J. (2025). Stronger Together: On-Policy Reinforcement Learning for Collaborative LLMs. arXiv preprint arXiv:2510.11062. - Hugging Face. (2025). Daily Papers. Abrufbar unter: https://huggingface.co/papers - Park, C., Han, S., Guo, X., Ozdaglar, A., Zhang, K., & Kim, J.-K. (2025). MAPoRL2: Multi-Agent Post-Co-Training for Collaborative Large Language Models with Reinforcement Learning. Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 30215–30248. Abrufbar unter: https://aclanthology.org/2025.acl-long.1459.pdf - TsinghuaC3I. (2025). A Survey of Reinforcement Learning for Large Reasoning Models. GitHub repository. Abrufbar unter: https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs - Liu, S., Yuan, H., Hu, M., Li, Y., Chen, Y., Liu, S., Lu, Z., & Jia, J. (2024). RL-GPT: Integrating Reinforcement Learning and Code-as-policy. 38th Conference on Neural Information Processing Systems (NeurIPS 2024). Abrufbar unter: https://proceedings.neurips.cc/paper_files/paper/2024/file/31f119089f702e48ecfd138c1bc82c4a-Paper-Conference.pdf