Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Fähigkeit von großen Sprachmodellen (LLMs), externe Werkzeuge zu nutzen, markiert einen signifikanten Fortschritt in der künstlichen Intelligenz. Diese Modelle können komplexe, mehrschrittige Schlussfolgerungen ziehen und dabei auf verschiedene Werkzeuge zurückgreifen, um Aufgaben zu lösen. Aktuelle Forschungsergebnisse beleuchten jedoch eine bestehende Herausforderung: Viele dieser LLMs, die für die Werkzeugnutzung trainiert werden, basieren auf statischen Datensätzen. Dies führt dazu, dass sie zwar in der Lage sind, vordefinierte Werkzeugaufrufabläufe zu imitieren, jedoch nur begrenzt neue Lösungswege erkunden und in sich entwickelnden, dynamischen Werkzeugumgebungen an Leistung einbüßen können.
Die traditionelle Trainingsmethodik für LLMs, die Werkzeuge verwenden, konzentriert sich häufig auf die Nachahmung von Lösungswegen, die in statischen Datensätzen vorgegeben sind. Diese Datensätze enthalten typischerweise Beispiele, wie eine bestimmte Anfrage durch eine Sequenz von Werkzeugaufrufen gelöst werden kann. Während dies die Modelle befähigt, wiederkehrende Probleme effizient zu bearbeiten, fehlt ihnen oft die intrinsische Motivation oder die Mechanik, um alternative oder neuartige Wege zur Problemlösung zu finden. In einer dynamischen Umgebung, in der die Verfügbarkeit von Werkzeugen, die Problemstellung oder die gewünschten Ergebnisse variieren können, kann diese Imitation zu suboptimalen oder gar fehlerhaften Ergebnissen führen.
In realen Anwendungsszenarien ist die Fähigkeit zur Exploration entscheidend. Ein LLM sollte nicht nur die offensichtlichsten oder bisher bekannten Lösungswege anwenden, sondern auch in der Lage sein, neue Kombinationen von Werkzeugen oder innovative Strategien zu erproben, um zu einem besseren Ergebnis zu gelangen oder überhaupt eine Lösung zu finden, wenn standardisierte Ansätze versagen. Die mangelnde Explorationsfähigkeit bei auf statischen Daten trainierten LLMs stellt somit eine wesentliche Einschränkung dar, die adressiert werden muss, um die Robustheit und Anpassungsfähigkeit dieser Systeme zu erhöhen.
Als Antwort auf diese Herausforderung wurde PORTool entwickelt, eine Methode, die Reinforcement Learning (RL) nutzt, um die Explorationsfähigkeit von LLMs bei der Werkzeugnutzung zu fördern. Der Kernansatz von PORTool besteht darin, das LLM dazu anzuregen, eine Vielzahl von Trajektorien (Lösungswegen) zu erkunden, die zu einer korrekten Antwort führen könnten.
Die Methode beginnt damit, für eine gegebene Anfrage mehrere sogenannte "Rollouts" zu generieren. Ein Rollout ist eine Abfolge von Werkzeugaufrufen und Zwischenergebnissen, die das LLM als potenziellen Lösungsweg vorschlägt. Interessanterweise teilen sich einige dieser Rollouts die ersten Schritte der Werkzeugnutzung, was zu einer baumartigen Struktur führt. Diese Struktur ermöglicht es, gemeinsame Anfangsphasen von Lösungswegen zu identifizieren und differenzierte Verzweigungen zu bewerten.
Ein zentraler Aspekt von PORTool ist die Zuweisung von Belohnungen. Jedem einzelnen Schritt innerhalb einer Trajektorie wird eine Belohnung zugewiesen, basierend auf zwei Hauptkriterien:
Ein wichtiger Unterschied zu anderen RL-Ansätzen ist die feingranulare Belohnung in der Baumstruktur: Ein Schritt, der von mehreren Trajektorien gemeinsam genutzt wird, erhält die gleiche Belohnung. Unterschiedliche Schritte innerhalb derselben Verzweigung erhalten jedoch unterschiedliche Belohnungen, was eine präzise Bewertung der Entscheidungen an jedem Knotenpunkt des Entscheidungsbaums ermöglicht.
Die gesammelten schrittweisen Belohnungen werden anschließend verwendet, um "Fork-relative Advantages" zu berechnen. Diese Vorteile bewerten die Qualität einer Verzweigung im Vergleich zu anderen Alternativen an einem bestimmten Entscheidungspunkt. Diese werden dann mit "Trajectory-relative Advantages" kombiniert, welche die Gesamtqualität eines vollständigen Lösungswegs beurteilen. Die Kombination dieser beiden Arten von Vorteilen dient als Grundlage für das Training des LLM. Durch diesen Mechanismus lernt das Modell, nicht nur erfolgreiche Endzustände zu erreichen, sondern auch effizientere und robustere Pfade dorthin zu wählen.
Die Wirksamkeit von PORTool wurde in Experimenten mit 17 verschiedenen Werkzeugen evaluiert, die sowohl zeitkritische als auch zeitunabhängige Benutzeranfragen abdeckten. Diese breite Palette an Werkzeugen und Anfragen unterstreicht die Vielseitigkeit des Ansatzes.
Im Rahmen von Ablationsstudien wurde die Notwendigkeit und Robustheit der schrittweisen Belohnungen systematisch untersucht. Diese Studien zeigten, dass die feingranulare Belohnungsstruktur entscheidend für die Leistungssteigerung ist und nicht einfach durch andere Metriken ersetzt werden kann. Die Ergebnisse untermauern die Designentscheidungen von PORTool und bestätigen, dass die spezifische Art der Belohnung das LLM effektiver zum Lernen anleitet.
Ein direkter Vergleich von PORTool mit anderen etablierten Trainingsansätzen für LLMs zur Werkzeugnutzung ergab signifikante Verbesserungen. Insbesondere wurden deutliche Fortschritte in zwei Schlüsselbereichen festgestellt:
Die Ergebnisse von PORTool sind insbesondere für B2B-Anwendungen von großer Bedeutung. In Szenarien, in denen LLMs komplexe Geschäftsprozesse automatisieren oder als intelligente Agenten fungieren sollen, ist die Fähigkeit, Werkzeuge effizient und präzise zu nutzen, entscheidend. Die verbesserte Genauigkeit und reduzierte Anzahl von Werkzeugaufrufen können zu erheblichen Kosteneinsparungen und einer Steigerung der Produktivität führen. Darüber hinaus ebnet der Fokus auf Exploration den Weg für LLMs, die in der Lage sind, sich an neue Werkzeuge und sich ändernde Anforderungen anzupassen, ohne umfangreiche Neuschulungen zu erfordern.
Die Forschung im Bereich der Tool-Use LLMs schreitet rasant voran. Ansätze wie AvaTaR (Optimizing LLM Agents for Tool Usage via Contrastive Reasoning) und ToolRL (Reward is All Tool Learning Needs) zeigen ebenfalls das Potenzial von Reinforcement Learning und optimierten Belohnungsdesigns zur Verbesserung der Werkzeugnutzung. Während AvaTaR sich auf kontrastives Reasoning zur iterativen Prompt-Generierung konzentriert, untersucht ToolRL umfassend das Belohnungsdesign für die Werkzeugauswahl und -anwendung. Diese Entwicklungen unterstreichen die wachsende Erkenntnis, dass fein abgestimmte Lernmechanismen jenseits des reinen Supervised Fine-Tunings erforderlich sind, um die volle Leistungsfähigkeit von LLMs in komplexen, interaktiven Umgebungen zu erschließen.
Die kontinuierliche Weiterentwicklung in diesem Feld, beispielsweise durch Ansätze zur effizienten Speicherung und Verwaltung von Langzeitgedächtnissen für Agenten wie Zep oder durch die Verbesserung der Selbsttrainingsmethoden mittels Prozessbelohnung und Baumsuche wie bei ReST-MCTS*, deutet auf eine Zukunft hin, in der LLMs als hochkompetente und anpassungsfähige Partner in einer Vielzahl von Anwendungsbereichen agieren können.
PORTool stellt einen vielversprechenden Fortschritt im Training von Large Language Models für die Werkzeugnutzung dar. Durch die Integration von Reinforcement Learning mit einem differenzierten Belohnungssystem, das auf einer baumartigen Explorationsstruktur basiert, überwindet es die Grenzen statischer Trainingsansätze. Die erzielten Verbesserungen in Genauigkeit und Effizienz eröffnen neue Möglichkeiten für den Einsatz von LLMs in komplexen, dynamischen Umgebungen und tragen maßgeblich zur Entwicklung intelligenterer und anpassungsfähigerer KI-Systeme bei.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen