Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Entwicklung autonomer Agenten, die in der Lage sind, komplexe Aufgaben in dynamischen Umgebungen zu bewältigen, stellt eine zentrale Herausforderung in der Forschung zur Künstlichen Allgemeinen Intelligenz (AGI) dar. Ein entscheidender Faktor für den Erfolg dieser Agenten ist ihre Fähigkeit, Werkzeuge effektiv in mehrstufigen Interaktionen einzusetzen. Aktuelle große Sprachmodelle (LLMs) stoßen hierbei jedoch oft an Grenzen, insbesondere bei mehrdeutigen Anweisungen, langen Kontextabhängigkeiten und unerwarteten Fehlern. Das Hauptproblem liegt in der Knappheit hochwertiger, realistischer Daten für das Training von Tool-Nutzungs-Trajektorien.
Bisherige Methoden zur Generierung von Tool-Nutzungsdaten basieren häufig auf werkzeugzentrierten Simulationen mit vordefinierten API-Sets. Obwohl diese Ansätze nützlich sind, weisen sie erhebliche Einschränkungen auf. Die Vielfalt der generierten Daten ist oft begrenzt, da sie an den Umfang der vordefinierten APIs gebunden ist. Zudem ist die Skalierbarkeit dieser Methoden eingeschränkt, was die Bereitstellung eines breiten Spektrums an Trainingsszenarien erschwert. Dies führt zu einer geringeren Generalisierungsfähigkeit der trainierten Agenten in unbekannten Umgebungen.
Vor diesem Hintergrund wurde ein neuartiges, textbasiertes Paradigma zur Synthese von Tool-Nutzungs-Trajektorien vorgeschlagen. Die Forscher stellten fest, dass Textkorpora, die für das Vortraining von LLMs verwendet werden, eine Fülle impliziter, mehrstufiger Problemlösungserfahrungen enthalten. Diese Texte, obwohl sie keine expliziten Agenten-Trajektorien aufweisen, dokumentieren reale Abläufe, die sich in Tool-Nutzungsdaten umwandeln lassen. Basierend auf dieser Erkenntnis wurde die GEM (Generation and Extraction of Multi-turn Tool-use trajectories from Text)-Pipeline entwickelt.
Die GEM-Pipeline durchläuft vier aufeinanderfolgende Phasen:
Nach der Generierung durchläuft jede Trajektorie einen strengen Validierungsprozess. Dieser umfasst eine regelbasierte Überprüfung der strukturellen Korrektheit (z.B. gültiges OpenAI-Tool-Format, korrekte Tool-Aufrufe) sowie eine LLM-basierte Bewertung (Qwen3-32B) zur Erkennung und Eliminierung von Halluzinationen. Nur Trajektorien, die beide Validierungsschritte bestehen, werden für das überwachte Fine-Tuning (SFT) verwendet.
Um die hohen Rechenkosten und den Zeitaufwand der vollständigen Pipeline zu reduzieren, wurde zusätzlich ein spezialisierter Trajektorien-Synthesizer entwickelt. Dieser Synthesizer wird durch SFT auf den hochwertigen Trajektorien der vollständigen Pipeline trainiert. Er lernt eine End-to-End-Abbildung von Textsegmenten zu mehrstufigen Tool-Nutzungs-Trajektorien und deren Tool-Definitionen, was eine kosteneffiziente Lösung für die skalierbare Datengenerierung darstellt.
Umfangreiche Experimente bestätigen die Wirksamkeit des GEM-Ansatzes. Modelle, die mit GEM-synthetisierten Daten feingetunt wurden (z.B. Qwen3-32B-GEM), erzielten signifikante Leistungssteigerungen. Auf dem BFCL V3 Multi-Turn-Benchmark wurde eine Verbesserung von 16,5 % erreicht. Diese Modelle übertrafen sogar proprietäre, großskalige Modelle wie GPT-4.1 und DeepSeek-V3.2-Exp in einigen Kategorien.
Besonders bemerkenswert ist die Generalisierungsfähigkeit der GEM-trainierten Modelle. Auf dem τ²-Bench (Airline- und Einzelhandelsdomänen) erreichten sie, obwohl sie mit strikt domänenfremden Daten trainiert wurden, eine vergleichbare oder sogar bessere Leistung als Modelle, die mit domäneninternen synthetischen Daten trainiert wurden. Dies unterstreicht die überlegene Generalisierungsfähigkeit, die aus dem textbasierten Syntheseparadigma resultiert.
Der spezialisierte Trajektorien-Synthesizer konnte die Qualität der vollständigen mehrstufigen Pipeline beibehalten, während er die Inferenzlatenz und -kosten erheblich reduzierte. Ablationsstudien bestätigten die entscheidende Rolle der Verfeinerungsphase und der LLM-basierten Halluzinationsprüfung für die Erzielung hochwertiger Trajektorien und die daraus resultierenden Leistungssteigerungen.
Die Datenanalyse zeigte, dass GEM-synthetisierte Trajektorien im Vergleich zu bestehenden Open-Source-Datensätzen deutlich komplexer und vielfältiger sind. Im Durchschnitt umfassen sie 8,6 verschiedene Tools, 46 Gesprächsrunden und 16,3 Tool-Aufrufe pro Trajektorie. Diese Tiefe und Vielfalt sind entscheidend für das Training von Modellen in komplexen, mehrstufigen Tool-Nutzungsszenarien.
Eine Fallstudie basierend auf einem realen Fotobearbeitungsszenario demonstrierte die Leistungsfähigkeit des Ansatzes. Die synthetisierte Trajektorie umfasste die Extraktion verschiedener Tools, die Identifizierung von Einschränkungen (z.B. Schriftgröße zwischen 8 und 96 Punkten) und die Demonstration realistischer Interaktionsmuster. Dazu gehörten die proaktive Klärung fehlender Parameter, die korrekte Abfolge von Tool-Aufrufen, die Ablehnung von Anfragen, die gegen Beschränkungen verstoßen, und die Fehlerbehebung durch alternative Ansätze. Dies ermöglichte dem Modell, Eingaben zu validieren, Systembeschränkungen einzuhalten, Aufgaben schrittweise auszuführen und flexibel auf Fehler zu reagieren.
Die vorgestellte Forschung bietet einen vielversprechenden Weg zur Überwindung der Datenknappheit für das Training autonomer KI-Agenten. Durch die direkte Synthese von mehrstufigen Tool-Nutzungs-Trajektorien aus Textkorpora wird eine ungenutzte, skalierbare und authentische Quelle menschlicher Problemlösungsmuster erschlossen. Die signifikanten Leistungssteigerungen auf verschiedenen Benchmarks und die verbesserte Generalisierungsfähigkeit der trainierten Modelle unterstreichen das Potenzial dieses Paradigmas für die Weiterentwicklung autonomer Systeme.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen