Fortschritte beim Training von Sprachmodellen zur effektiven Werkzeugnutzung

Kategorien:

No items found.

Freigegeben:

November 9, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Große Sprachmodelle (LLMs) zeigen bei der Werkzeugnutzung oft Einschränkungen, insbesondere in dynamischen Umgebungen.
PORTool ist eine neue Methode des Reinforcement Learnings (RL), die LLMs dazu anregt, verschiedene Lösungswege (Trajektorien) zu erkunden.
Die Methode generiert mehrere Rollouts, die sich zu einer Baumstruktur verzweigen, wobei jedem Schritt eine Belohnung zugewiesen wird.
Diese schrittweisen Belohnungen, kombiniert mit trajektorienspezifischen Vorteilen, dienen dem Training des LLM.
Experimente zeigen deutliche Verbesserungen in der Genauigkeit und der Effizienz der Werkzeugnutzung, selbst bei komplexen Anfragen.
PORTool adressiert die Herausforderung, dass herkömmliche LLM-Trainings auf statischen Daten die Exploration in dynamischen Szenarien behindern.

Die Fähigkeit von großen Sprachmodellen (LLMs), externe Werkzeuge zu nutzen, markiert einen signifikanten Fortschritt in der künstlichen Intelligenz. Diese Modelle können komplexe, mehrschrittige Schlussfolgerungen ziehen und dabei auf verschiedene Werkzeuge zurückgreifen, um Aufgaben zu lösen. Aktuelle Forschungsergebnisse beleuchten jedoch eine bestehende Herausforderung: Viele dieser LLMs, die für die Werkzeugnutzung trainiert werden, basieren auf statischen Datensätzen. Dies führt dazu, dass sie zwar in der Lage sind, vordefinierte Werkzeugaufrufabläufe zu imitieren, jedoch nur begrenzt neue Lösungswege erkunden und in sich entwickelnden, dynamischen Werkzeugumgebungen an Leistung einbüßen können.

Herausforderung der statischen Datensätze

Die traditionelle Trainingsmethodik für LLMs, die Werkzeuge verwenden, konzentriert sich häufig auf die Nachahmung von Lösungswegen, die in statischen Datensätzen vorgegeben sind. Diese Datensätze enthalten typischerweise Beispiele, wie eine bestimmte Anfrage durch eine Sequenz von Werkzeugaufrufen gelöst werden kann. Während dies die Modelle befähigt, wiederkehrende Probleme effizient zu bearbeiten, fehlt ihnen oft die intrinsische Motivation oder die Mechanik, um alternative oder neuartige Wege zur Problemlösung zu finden. In einer dynamischen Umgebung, in der die Verfügbarkeit von Werkzeugen, die Problemstellung oder die gewünschten Ergebnisse variieren können, kann diese Imitation zu suboptimalen oder gar fehlerhaften Ergebnissen führen.

Die Bedeutung der Exploration in dynamischen Umgebungen

In realen Anwendungsszenarien ist die Fähigkeit zur Exploration entscheidend. Ein LLM sollte nicht nur die offensichtlichsten oder bisher bekannten Lösungswege anwenden, sondern auch in der Lage sein, neue Kombinationen von Werkzeugen oder innovative Strategien zu erproben, um zu einem besseren Ergebnis zu gelangen oder überhaupt eine Lösung zu finden, wenn standardisierte Ansätze versagen. Die mangelnde Explorationsfähigkeit bei auf statischen Daten trainierten LLMs stellt somit eine wesentliche Einschränkung dar, die adressiert werden muss, um die Robustheit und Anpassungsfähigkeit dieser Systeme zu erhöhen.

PORTool: Ein neuer Ansatz durch Reinforcement Learning

Als Antwort auf diese Herausforderung wurde PORTool entwickelt, eine Methode, die Reinforcement Learning (RL) nutzt, um die Explorationsfähigkeit von LLMs bei der Werkzeugnutzung zu fördern. Der Kernansatz von PORTool besteht darin, das LLM dazu anzuregen, eine Vielzahl von Trajektorien (Lösungswegen) zu erkunden, die zu einer korrekten Antwort führen könnten.

Aufbau der Baumstruktur und Belohnungssystematik

Die Methode beginnt damit, für eine gegebene Anfrage mehrere sogenannte "Rollouts" zu generieren. Ein Rollout ist eine Abfolge von Werkzeugaufrufen und Zwischenergebnissen, die das LLM als potenziellen Lösungsweg vorschlägt. Interessanterweise teilen sich einige dieser Rollouts die ersten Schritte der Werkzeugnutzung, was zu einer baumartigen Struktur führt. Diese Struktur ermöglicht es, gemeinsame Anfangsphasen von Lösungswegen zu identifizieren und differenzierte Verzweigungen zu bewerten.

Ein zentraler Aspekt von PORTool ist die Zuweisung von Belohnungen. Jedem einzelnen Schritt innerhalb einer Trajektorie wird eine Belohnung zugewiesen, basierend auf zwei Hauptkriterien:

Fähigkeit zur Erzielung einer korrekten Antwort: Schritte, die direkt oder indirekt zu einem korrekten Endergebnis beitragen, erhalten eine höhere Belohnung.
Erfolgreiche Werkzeugaufrufe: Die korrekte und effiziente Nutzung der Werkzeuge selbst wird ebenfalls belohnt.

Ein wichtiger Unterschied zu anderen RL-Ansätzen ist die feingranulare Belohnung in der Baumstruktur: Ein Schritt, der von mehreren Trajektorien gemeinsam genutzt wird, erhält die gleiche Belohnung. Unterschiedliche Schritte innerhalb derselben Verzweigung erhalten jedoch unterschiedliche Belohnungen, was eine präzise Bewertung der Entscheidungen an jedem Knotenpunkt des Entscheidungsbaums ermöglicht.

Training des LLM mit schrittweisen und trajektorienspezifischen Vorteilen

Die gesammelten schrittweisen Belohnungen werden anschließend verwendet, um "Fork-relative Advantages" zu berechnen. Diese Vorteile bewerten die Qualität einer Verzweigung im Vergleich zu anderen Alternativen an einem bestimmten Entscheidungspunkt. Diese werden dann mit "Trajectory-relative Advantages" kombiniert, welche die Gesamtqualität eines vollständigen Lösungswegs beurteilen. Die Kombination dieser beiden Arten von Vorteilen dient als Grundlage für das Training des LLM. Durch diesen Mechanismus lernt das Modell, nicht nur erfolgreiche Endzustände zu erreichen, sondern auch effizientere und robustere Pfade dorthin zu wählen.

Experimentelle Ergebnisse und Implikationen

Die Wirksamkeit von PORTool wurde in Experimenten mit 17 verschiedenen Werkzeugen evaluiert, die sowohl zeitkritische als auch zeitunabhängige Benutzeranfragen abdeckten. Diese breite Palette an Werkzeugen und Anfragen unterstreicht die Vielseitigkeit des Ansatzes.

Ablationsstudien zur Robustheit des Designs

Im Rahmen von Ablationsstudien wurde die Notwendigkeit und Robustheit der schrittweisen Belohnungen systematisch untersucht. Diese Studien zeigten, dass die feingranulare Belohnungsstruktur entscheidend für die Leistungssteigerung ist und nicht einfach durch andere Metriken ersetzt werden kann. Die Ergebnisse untermauern die Designentscheidungen von PORTool und bestätigen, dass die spezifische Art der Belohnung das LLM effektiver zum Lernen anleitet.

Vergleich mit anderen Trainingsansätzen

Ein direkter Vergleich von PORTool mit anderen etablierten Trainingsansätzen für LLMs zur Werkzeugnutzung ergab signifikante Verbesserungen. Insbesondere wurden deutliche Fortschritte in zwei Schlüsselbereichen festgestellt:

Endgültige Genauigkeit: PORTool erreichte eine höhere Rate an korrekten Lösungen für die gestellten Aufgaben.
Anzahl der Werkzeugaufrufe: Die Methode führte zu einer effizienteren Nutzung der Werkzeuge, was sich in einer reduzierten Anzahl notwendiger Aufrufe niederschlug. Dies deutet auf eine verbesserte strategische Planung und Entscheidungsfindung des LLM hin.

Praktische Relevanz und zukünftige Perspektiven

Die Ergebnisse von PORTool sind insbesondere für B2B-Anwendungen von großer Bedeutung. In Szenarien, in denen LLMs komplexe Geschäftsprozesse automatisieren oder als intelligente Agenten fungieren sollen, ist die Fähigkeit, Werkzeuge effizient und präzise zu nutzen, entscheidend. Die verbesserte Genauigkeit und reduzierte Anzahl von Werkzeugaufrufen können zu erheblichen Kosteneinsparungen und einer Steigerung der Produktivität führen. Darüber hinaus ebnet der Fokus auf Exploration den Weg für LLMs, die in der Lage sind, sich an neue Werkzeuge und sich ändernde Anforderungen anzupassen, ohne umfangreiche Neuschulungen zu erfordern.

Die Forschung im Bereich der Tool-Use LLMs schreitet rasant voran. Ansätze wie AvaTaR (Optimizing LLM Agents for Tool Usage via Contrastive Reasoning) und ToolRL (Reward is All Tool Learning Needs) zeigen ebenfalls das Potenzial von Reinforcement Learning und optimierten Belohnungsdesigns zur Verbesserung der Werkzeugnutzung. Während AvaTaR sich auf kontrastives Reasoning zur iterativen Prompt-Generierung konzentriert, untersucht ToolRL umfassend das Belohnungsdesign für die Werkzeugauswahl und -anwendung. Diese Entwicklungen unterstreichen die wachsende Erkenntnis, dass fein abgestimmte Lernmechanismen jenseits des reinen Supervised Fine-Tunings erforderlich sind, um die volle Leistungsfähigkeit von LLMs in komplexen, interaktiven Umgebungen zu erschließen.

Die kontinuierliche Weiterentwicklung in diesem Feld, beispielsweise durch Ansätze zur effizienten Speicherung und Verwaltung von Langzeitgedächtnissen für Agenten wie Zep oder durch die Verbesserung der Selbsttrainingsmethoden mittels Prozessbelohnung und Baumsuche wie bei ReST-MCTS*, deutet auf eine Zukunft hin, in der LLMs als hochkompetente und anpassungsfähige Partner in einer Vielzahl von Anwendungsbereichen agieren können.

Fazit

PORTool stellt einen vielversprechenden Fortschritt im Training von Large Language Models für die Werkzeugnutzung dar. Durch die Integration von Reinforcement Learning mit einem differenzierten Belohnungssystem, das auf einer baumartigen Explorationsstruktur basiert, überwindet es die Grenzen statischer Trainingsansätze. Die erzielten Verbesserungen in Genauigkeit und Effizienz eröffnen neue Möglichkeiten für den Einsatz von LLMs in komplexen, dynamischen Umgebungen und tragen maßgeblich zur Entwicklung intelligenterer und anpassungsfähigerer KI-Systeme bei.

Bibliography

- Wu, F., Zhu, W., Zhang, Y., Chatterjee, S., Zhu, J., Mo, F., ... & Gao, J. (2022). PORTool: Tool-Use LLM Training with Rewarded Tree. arXiv preprint arXiv:2510.26020. - Qian, C., Acikgoz, E. C., He, Q., Wang, H., Chen, X., Hakkani-Tür, D., ... & Ji, H. (2025). ToolRL: Reward is All Tool Learning Needs. arXiv preprint arXiv:2504.13958. - Wu, S., Zhao, S., Huang, Q., Huang, K., Yasunaga, M., Cao, K., ... & Leskovec, J. (2024). AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning. arXiv preprint arXiv:2406.11200. - Zhang, D., Zhoubian, S., Hu, Z., Yue, Y., Dong, Y., & Tang, J. (2024). ReST-MCTS*: LLM Self-Training via Process Reward Guided Tree Search. Advances in Neural Information Processing Systems, 37. - Red Hat. (2025). AI performance research papers. Retrieved from https://www.redhat.com/en/artificial-intelligence/research - Hugging Face. (2025). Daily Papers. Retrieved from https://huggingface.co/papers - Hugging Face. (2025). Trending Papers. Retrieved from https://paperswithcode.com/papers