Innovativer Ansatz zur Generierung von Tool-Nutzungsdaten für KI-Agenten

Kategorien:

No items found.

Freigegeben:

January 19, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Der schnelle Überblick:

Große Sprachmodelle (LLMs) zeigen Schwächen in komplexen Tool-Nutzungsinteraktionen, vor allem bei mehrstufigen Aufgaben.
Herkömmliche Methoden zur Datengenerierung sind oft begrenzt in Vielfalt und Skalierbarkeit.
Ein neuer Ansatz namens GEM (Generation and Extraction of Multi-turn Tool-use trajectories from Text) wurde entwickelt.
GEM extrahiert und synthetisiert Tool-Nutzungs-Trajektorien direkt aus Textkorpora.
Der Prozess umfasst Textfilterung, Workflow- und Tool-Extraktion, Trajektoriengenerierung und Verfeinerung.
Modelle, die mit GEM-synthetisierten Daten trainiert wurden, übertreffen proprietäre LLMs in Benchmarks erheblich.
Ein spezialisierter Trajektorien-Synthesizer reduziert Kosten und Latenzzeit bei der Datengenerierung.

Revolutionäre Datenextraktion für autonome KI-Agenten

Die Entwicklung autonomer Agenten, die in der Lage sind, komplexe Aufgaben in dynamischen Umgebungen zu bewältigen, stellt eine zentrale Herausforderung in der Forschung zur Künstlichen Allgemeinen Intelligenz (AGI) dar. Ein entscheidender Faktor für den Erfolg dieser Agenten ist ihre Fähigkeit, Werkzeuge effektiv in mehrstufigen Interaktionen einzusetzen. Aktuelle große Sprachmodelle (LLMs) stoßen hierbei jedoch oft an Grenzen, insbesondere bei mehrdeutigen Anweisungen, langen Kontextabhängigkeiten und unerwarteten Fehlern. Das Hauptproblem liegt in der Knappheit hochwertiger, realistischer Daten für das Training von Tool-Nutzungs-Trajektorien.

Die Grenzen traditioneller Ansätze

Bisherige Methoden zur Generierung von Tool-Nutzungsdaten basieren häufig auf werkzeugzentrierten Simulationen mit vordefinierten API-Sets. Obwohl diese Ansätze nützlich sind, weisen sie erhebliche Einschränkungen auf. Die Vielfalt der generierten Daten ist oft begrenzt, da sie an den Umfang der vordefinierten APIs gebunden ist. Zudem ist die Skalierbarkeit dieser Methoden eingeschränkt, was die Bereitstellung eines breiten Spektrums an Trainingsszenarien erschwert. Dies führt zu einer geringeren Generalisierungsfähigkeit der trainierten Agenten in unbekannten Umgebungen.

Ein Paradigmenwechsel: Die GEM-Pipeline

Vor diesem Hintergrund wurde ein neuartiges, textbasiertes Paradigma zur Synthese von Tool-Nutzungs-Trajektorien vorgeschlagen. Die Forscher stellten fest, dass Textkorpora, die für das Vortraining von LLMs verwendet werden, eine Fülle impliziter, mehrstufiger Problemlösungserfahrungen enthalten. Diese Texte, obwohl sie keine expliziten Agenten-Trajektorien aufweisen, dokumentieren reale Abläufe, die sich in Tool-Nutzungsdaten umwandeln lassen. Basierend auf dieser Erkenntnis wurde die GEM (Generation and Extraction of Multi-turn Tool-use trajectories from Text)-Pipeline entwickelt.

Die GEM-Pipeline durchläuft vier aufeinanderfolgende Phasen:

Textfilterung: In dieser ersten Phase werden Textsegmente identifiziert und ausgewählt, die explizit mehrstufige operative Verfahren beschreiben. Ein Klassifikator stellt sicher, dass nur relevante und qualitativ hochwertige Quellmaterialien weiterverarbeitet werden.
Workflow- und Tool-Extraktion: Für jedes gefilterte Textsegment extrahiert ein großes Sprachmodell (LLM) strukturierte, abstrakte Workflows und synthetisiert entsprechende funktionale API-Tools. Dabei werden komplexe Workflow-Eigenschaften wie sequentielle Abhängigkeiten, bedingte Logik und Eindeutigkeitsbeschränkungen berücksichtigt. Die Tools werden nach OpenAI-Schema-Standards entworfen, wobei jedes Tool eine kohärente Funktion mit selbsterklärenden Parametern und spezifizierten Datentypen ausführt.
Trajektoriengenerierung: Mithilfe der extrahierten Workflows und Tools generiert ein leistungsstarkes Modell (in dieser Arbeit GLM-4.6) konkrete, mehrstufige Tool-Nutzungs-Trajektorien in einem einzigen Durchlauf. Jede Trajektorie umfasst Systemanweisungen, Benutzeraufgaben, Assistentenantworten (einschließlich Argumentation, adaptiver Planung und Tool-Aufrufen) und simulierte Tool-Antworten. Es werden verschiedene Interaktionsmuster wie die Klärung mehrdeutiger Anfragen oder die Fehlerbehebung gefördert.
Verfeinerung: Die anfänglich generierten Trajektorien sind oft unkompliziert. Diese Phase zielt darauf ab, ihre Komplexität und Vielfalt zu erhöhen, indem die Anzahl der verwendeten Tools erweitert, der Realismus der Umgebungsantworten verbessert und die Mehrdeutigkeit der Benutzeranfragen gesteigert wird. Dies gewährleistet die Einbeziehung nicht-trivialer Tool-Aufrufketten.

Validierung und Effizienzsteigerung

Nach der Generierung durchläuft jede Trajektorie einen strengen Validierungsprozess. Dieser umfasst eine regelbasierte Überprüfung der strukturellen Korrektheit (z.B. gültiges OpenAI-Tool-Format, korrekte Tool-Aufrufe) sowie eine LLM-basierte Bewertung (Qwen3-32B) zur Erkennung und Eliminierung von Halluzinationen. Nur Trajektorien, die beide Validierungsschritte bestehen, werden für das überwachte Fine-Tuning (SFT) verwendet.

Um die hohen Rechenkosten und den Zeitaufwand der vollständigen Pipeline zu reduzieren, wurde zusätzlich ein spezialisierter Trajektorien-Synthesizer entwickelt. Dieser Synthesizer wird durch SFT auf den hochwertigen Trajektorien der vollständigen Pipeline trainiert. Er lernt eine End-to-End-Abbildung von Textsegmenten zu mehrstufigen Tool-Nutzungs-Trajektorien und deren Tool-Definitionen, was eine kosteneffiziente Lösung für die skalierbare Datengenerierung darstellt.

Experimentelle Ergebnisse und Leistungsbewertung

Umfangreiche Experimente bestätigen die Wirksamkeit des GEM-Ansatzes. Modelle, die mit GEM-synthetisierten Daten feingetunt wurden (z.B. Qwen3-32B-GEM), erzielten signifikante Leistungssteigerungen. Auf dem BFCL V3 Multi-Turn-Benchmark wurde eine Verbesserung von 16,5 % erreicht. Diese Modelle übertrafen sogar proprietäre, großskalige Modelle wie GPT-4.1 und DeepSeek-V3.2-Exp in einigen Kategorien.

Besonders bemerkenswert ist die Generalisierungsfähigkeit der GEM-trainierten Modelle. Auf dem τ²-Bench (Airline- und Einzelhandelsdomänen) erreichten sie, obwohl sie mit strikt domänenfremden Daten trainiert wurden, eine vergleichbare oder sogar bessere Leistung als Modelle, die mit domäneninternen synthetischen Daten trainiert wurden. Dies unterstreicht die überlegene Generalisierungsfähigkeit, die aus dem textbasierten Syntheseparadigma resultiert.

Der spezialisierte Trajektorien-Synthesizer konnte die Qualität der vollständigen mehrstufigen Pipeline beibehalten, während er die Inferenzlatenz und -kosten erheblich reduzierte. Ablationsstudien bestätigten die entscheidende Rolle der Verfeinerungsphase und der LLM-basierten Halluzinationsprüfung für die Erzielung hochwertiger Trajektorien und die daraus resultierenden Leistungssteigerungen.

Datenanalyse und Fallstudien

Die Datenanalyse zeigte, dass GEM-synthetisierte Trajektorien im Vergleich zu bestehenden Open-Source-Datensätzen deutlich komplexer und vielfältiger sind. Im Durchschnitt umfassen sie 8,6 verschiedene Tools, 46 Gesprächsrunden und 16,3 Tool-Aufrufe pro Trajektorie. Diese Tiefe und Vielfalt sind entscheidend für das Training von Modellen in komplexen, mehrstufigen Tool-Nutzungsszenarien.

Eine Fallstudie basierend auf einem realen Fotobearbeitungsszenario demonstrierte die Leistungsfähigkeit des Ansatzes. Die synthetisierte Trajektorie umfasste die Extraktion verschiedener Tools, die Identifizierung von Einschränkungen (z.B. Schriftgröße zwischen 8 und 96 Punkten) und die Demonstration realistischer Interaktionsmuster. Dazu gehörten die proaktive Klärung fehlender Parameter, die korrekte Abfolge von Tool-Aufrufen, die Ablehnung von Anfragen, die gegen Beschränkungen verstoßen, und die Fehlerbehebung durch alternative Ansätze. Dies ermöglichte dem Modell, Eingaben zu validieren, Systembeschränkungen einzuhalten, Aufgaben schrittweise auszuführen und flexibel auf Fehler zu reagieren.

Fazit

Die vorgestellte Forschung bietet einen vielversprechenden Weg zur Überwindung der Datenknappheit für das Training autonomer KI-Agenten. Durch die direkte Synthese von mehrstufigen Tool-Nutzungs-Trajektorien aus Textkorpora wird eine ungenutzte, skalierbare und authentische Quelle menschlicher Problemlösungsmuster erschlossen. Die signifikanten Leistungssteigerungen auf verschiedenen Benchmarks und die verbesserte Generalisierungsfähigkeit der trainierten Modelle unterstreichen das Potenzial dieses Paradigmas für die Weiterentwicklung autonomer Systeme.

Bibliografie

- Barres, V., Dong, H., Ray, S., Si, X., & Narasimhan, K. (2025). τ²-Bench: evaluating conversational agents in a dual-control environment. arXiv preprint arXiv:2506.07982. - Chen, C., Hao, X., Liu, W., Huang, X., Zeng, X., Yu, S., Li, D., Wang, S., Gan, W., Huang, Y., et al. (2025). ACEBench: who wins the match point in tool usage?. arXiv preprint arXiv:2501.12851. - Fang, R., Cai, S., Li, B., Wu, J., Li, G., Yin, W., Wang, X., Wang, X., Su, L., Zhang, Z., et al. (2025). Towards general agentic intelligence via environment scaling. arXiv preprint arXiv:2509.13311. - Guo, Z., Cheng, S., Wang, H., Liang, S., Qin, Y., Li, P., Liu, Z., Sun, M., & Liu, Y. (2024). Stabletoolbench: towards stable large-scale benchmarking on tool learning of large language models. arXiv preprint arXiv:2403.07714. - He, W., Sun, Y., Hao, H., Hao, X., Xia, Z., Gu, Q., Han, C., Zhao, D., Su, H., Zhang, K., et al. (2025). VitaBench: benchmarking llm agents with versatile interactive tasks in real-world applications. arXiv preprint arXiv:2509.26490. - Koupaee, M., & Wang, W. Y. (2018). Wikihow: a large scale text summarization dataset. arXiv preprint arXiv:1810.09305. - Li, Y., Inan, H. A., Yue, X., Chen, W., Wutschitz, L., Kulkarni, J., Poovendran, R., Sim, R., & Rajmohan, S. (2025). Simulating environments with reasoning models for agent training. arXiv preprint arXiv:2511.01824. - Liu, A., Mei, A., Lin, B., Xue, B., Wang, B., Xu, B., Wu, B., Zhang, B., Lin, C., Dong, C., et al. (2025). DeepSeek-v3. 2: pushing the frontier of open large language models. arXiv preprint arXiv:2512.02556. - Liu, W., Huang, X., Zeng, X., Hao, X., Yu, S., Li, D., Wang, S., Gan, W., Liu, Z., Yu, Y., et al. (2024a). Toolace: winning the points of llm function calling. arXiv preprint arXiv:2409.00920. - Liu, Z., Hoang, T., Zhang, J., Zhu, M., Lan, T., Tan, J., Yao, W., Liu, Z., Feng, Y., RN, R., et al. (2024b). Apigen: automated pipeline for generating verifiable and diverse function-calling datasets. Advances in Neural Information Processing Systems, 37, 54463-54482. - Patil, S. G., Mao, H., Yan, F., Ji, C. C., Suresh, V., Stoica, I., & Gonzalez, J. E. The berkeley function calling leaderboard (bfcl): from tool use to agentic evaluation of large language models. In Forty-second International Conference on Machine Learning. - Prabhakar, A., Liu, Z., Zhu, M., Zhang, J., Awalgaonkar, T., Wang, S., Liu, Z., Chen, H., Hoang, T., Niebles, J. C., et al. (2025). Apigen-mt: agentic pipeline for multi-turn data generation via simulated agent-human interplay. arXiv preprint arXiv:2504.03601. - Qin, Y., Liang, S., Ye, Y., Zhu, K., Yan, L., Lu, Y., Lin, Y., Cong, X., Tang, X., Qian, B., et al. (2023). Toolllm: facilitating large language models to master 16000+ real-world apis. arXiv preprint arXiv:2307.16789. - Team, K., Bai, Y., Bao, Y., Chen, G., Chen, J., Chen, N., Chen, R., Chen, Y., Chen, Y., Chen, Y., et al. (2025a). Kimi k2: open agentic intelligence. arXiv preprint arXiv:2507.20534. - Team, M. L., Li, B., Lei, B., Wang, B., Rong, B., Wang, C., Zhang, C., Gao, C., Zhang, C., Sun, C., et al. (2025b). Longcat-flash technical report. arXiv preprint arXiv:2509.01322. - Wang, Y., Fu, Z., Cai, J., Tang, P., Lyu, H., Fang, Y., Zheng, Z., Zhou, J., Zeng, G., Xiao, C., et al. (2025). Ultra-fineweb: efficient data filtering and verification for high-quality llm training data. arXiv preprint arXiv:2505.05427. - Xu, Z., Soria, A. M., Tan, S., Roy, A., Agrawal, A. S., Poovendran, R., & Panda, R. (2025). Toucan: synthesizing 1.5 m tool-agentic data from real-world mcp environments. arXiv preprint arXiv:2510.01179. - Yao, S., Shinn, N., Razavi, P., & Narasimhan, K. (2024). τ-Bench: a benchmark for tool-agent-user interaction in real-world domains. arXiv preprint arXiv:2406.12045. - Yin, F., Wang, Z., Hsu, I., Yan, J., Jiang, K., Chen, Y., Gu, J., Le, L., Chang, K., Lee, C., et al. (2025). Magnet: multi-turn tool-use data synthesis and distillation via graph translation. In Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 32600-32616. - Zeng, X., Liu, W., Wang, L., Li, L., Mi, F., Wang, Y., Shang, L., Jiang, X., & Liu, Q. (2025). Toolace-mt: non-autoregressive generation for agentic multi-turn interaction. arXiv preprint arXiv:2508.12685. - Zhao, W., Wang, X., Ma, C., Kong, L., Yang, Z., Tuo, M., Shi, X., Zhai, Y., & Cai, X. (2025). MUA-rl: multi-turn user-interacting agent reinforcement learning for agentic tool use. arXiv preprint arXiv:2508.18669. - Zheng, Y., Zhang, R., Zhang, J., Ye, Y., Luo, Z., Feng, Z., & Ma, Y. (2024). Llamafactory: unified efficient fine-tuning of 100+ language models. arXiv preprint arXiv:2403.13372.