Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Entwicklung von Large Language Models (LLMs) hin zu intelligenten Agenten, die in der Lage sind, komplexe, mehrstufige Entscheidungen unter Einsatz von Tools zu treffen, stellt einen bedeutenden Fortschritt in der Künstlichen Intelligenz dar. Trotz dieser Fortschritte bleiben jedoch erhebliche Herausforderungen bestehen, insbesondere im Hinblick auf die Robustheit und Skalierbarkeit des Trainings solcher Agenten. Manuelle Eingriffe, die Abhängigkeit von nicht verifizierbaren Simulationsumgebungen sowie Schwierigkeiten beim stabilen Lernen über längere Interaktionssequenzen hinweg sind typische Hürden. In diesem Kontext wurde ein neues Framework namens ASTRA vorgestellt, das eine vollständig automatisierte End-to-End-Lösung für das Training tool-erweiterter Sprachmodell-Agenten bietet.
ASTRA integriert zwei komplementäre Hauptkomponenten, die darauf abzielen, die genannten Herausforderungen zu überwinden:
Durch die Kombination dieser Elemente ermöglicht ASTRA eine vereinheitlichte Trainingsmethodik, die Supervised Fine-Tuning (SFT) mit Online Reinforcement Learning (RL) verknüpft. Hierbei kommen Belohnungen auf Trajektorien-Ebene zum Einsatz, um ein Gleichgewicht zwischen der Erfüllung von Aufgaben und der Effizienz der Interaktion herzustellen.
Bestehende Methoden zum Training von tool-nutzenden Agenten weisen oft mehrere Limitationen auf:
Die Trajektoriensynthese in ASTRA beginnt mit der Sammlung und Normalisierung von Werkzeugdokumenten aus verschiedenen Quellen. Diese Dokumente werden in ein einheitliches Schema überführt, das mit dem OpenAI Client Tool-Calling-Protokoll kompatibel ist. Anschließend werden die Tools nach Diensten gruppiert und gefiltert, um nur solche zu behalten, die sinnvolle mehrstufige Interaktionen unterstützen.
Ein zentraler Schritt ist die Konstruktion von Werkzeugketten. Ein LLM synthetisiert hierbei nutzerrelevante Aufgaben und plausible Werkzeugketten, die zur Lösung dieser Aufgaben verwendet werden könnten. Diese Ketten berücksichtigen die Eingabeschemata und Dokumentationen der Tools. Zur Generierung von Kandidatenketten werden gerichtete Übergangsgraphen erstellt und darauf basierend längenbeschränkte Zufallspfade generiert. Jede Kette wird auf Inter-Tool-Abhängigkeiten und Aufgaben-Ketten-Kohärenz überprüft.
Die Aufgabenkonstruktion erfolgt über eine Kombination aus kettenkonditionierter und server-only Konstruktion, um Realismus und Abdeckung zu gewährleisten. Aufgaben werden dann durch Paraphrasierung, Komplexitätssteigerung und persona-konditionierte Anpassung erweitert. Schließlich werden die Aufgaben nach Qualität bewertet und gefiltert, basierend auf Kriterien wie Fragenqualität, Szenariorealismus und Notwendigkeit des Werkzeugeinsatzes.
Die Trajektoriensammlung erfolgt über Multi-Turn-Interaktionen, wobei ein Agenten-Framework (z.B. Qwen-Agent) verwendet wird. Die Werkzeugpool besteht aus bereitgestellten MCP-Servern (Tool-Aufrufe werden direkt ausgeführt) und rein dokumentenbasierten MCP-Servern, für die plausible Ausgaben emuliert werden, inklusive der Injektion von Fehlern, um die Realität abzubilden.
Ein Belohnungsmodell bewertet die Qualität der Trajektorien, ohne manuelle Annotationen. Dies umfasst die Bewertung von Abfrageverständnis, Planung, Werkzeugantwort-Verständnis, Werkzeugaufrufstatus (Erfolgsrate), Werkzeugprägnanz (Notwendigkeit der Aufrufe) und die Qualität der finalen Antwort. Diese sieben Kennzahlen werden zu einer einzigen Skalarbelohnung aggregiert.
Die Umgebungssynthese in ASTRA zielt darauf ab, skalierbare und verifizierbare Umgebungen für das Reinforcement Learning bereitzustellen. Dies geschieht in vier Hauptphasen:
Das Training von ASTRA-Modellen erfolgt in zwei Stufen: Supervised Fine-Tuning (SFT) und Reinforcement Learning (RL). Das SFT-Training nutzt eine Infrastruktur, die Checkpoints effizient speichert und Parameter-Snapshots von Trainingszustands-Serialisierungen entkoppelt. Das RL-Training erfolgt über eine Sammlung instanzspezifischer, vollständig isolierter Simulatoren, wobei ein Online-Multi-Turn-Ansatz verfolgt wird. Bei jedem Interaktionsschritt generiert das Modell eine Werkzeugaufrufanweisung, die in einer Code-Sandbox ausgeführt wird, um ein Ergebnis zu liefern, das als Beobachtung zurück zum Modell geführt wird.
Die Belohnung im RL-Training basiert auf einem F1-ähnlichen System, das sowohl die Aufgabenerfüllung (Recall) als auch die Interaktionseffizienz (Precision) berücksichtigt. Dies motiviert den Agenten, möglichst viele Unteraufgaben zu lösen und gleichzeitig redundante Werkzeugaufrufe zu minimieren.
Zur Verbesserung der Robustheit bei der Werkzeugauswahl wird eine Strategie des Mischens irrelevanter Werkzeuge angewendet. Hierbei werden dem Agenten während des RL-Trainings gezielt irrelevante Werkzeuge aus verschiedenen semantischen Ähnlichkeitsbereichen präsentiert. Dies fördert die Fähigkeit des Modells, relevante Werkzeuge zu diskriminieren, anstatt sich an eine feste oder zu "saubere" Werkzeugliste anzupassen.
Experimente auf mehreren Benchmarks für den Einsatz von Agenten mit Tools (BFCL-MT, τ²-Bench, ACEBench) zeigen, dass ASTRA-trainierte Modelle eine hohe Leistung erreichen und mit geschlossenen Systemen vergleichbar sind, während sie ihre Kern-Argumentationsfähigkeit beibehalten. Die Analyse der Trainingsstufen verdeutlicht, dass sowohl SFT als auch RL zu Leistungssteigerungen führen, wobei die RL-Phase den größten Beitrag leistet.
Die Untersuchung des irrelevanten Werkzeug-Mischens ergab, dass das Entfernen irrelevanter Werkzeuge zu einer schlechteren Leistung führt, da das Modell zu stark an spezifische Auswahlmuster angepasst wird. Das zufällige Mischen irrelevanter Werkzeuge verbessert die Leistung, bleibt aber dem vollständigen ASTRA-Setup unterlegen, das ein ausgewogenes Mischen über verschiedene Ähnlichkeitsbänder hinweg vorsieht.
Die Gestaltung der Belohnungsfunktion hat ebenfalls einen signifikanten Einfluss auf das Werkzeugnutzungsverhalten. Eine reine Recall-Optimierung kann zu einer Explosion der Interaktionsschritte führen, während eine reine Präzisionsoptimierung ein übermäßig konservatives Verhalten fördert. Die F1-Belohnung hingegen führt zu stabilen Interaktionslängen und einem ausgewogenen Kompromiss zwischen Exploration und Exploitation.
Eine Analyse des Verhaltens in verschiedenen Trainingsphasen zeigt, dass die Anzahl der Interaktionsschritte über die Phasen hinweg weitgehend konstant bleibt, während die Ausgabelänge des Modells variiert. Das SFT-Modell erzeugt die kürzesten Ausgaben, während das RL-trainierte Modell eine mittlere Länge erreicht, die länger ist als SFT, aber kürzer als das Originalmodell.
ASTRA bietet ein vollständig automatisiertes Framework für das Training von tool-erweiterten Sprachmodell-Agenten. Durch die Kombination von skalierbarer Datensynthese und überprüfbarem Multi-Turn Reinforcement Learning adressiert es zentrale Herausforderungen im Bereich des Agenten-Trainings. Die Fähigkeit, vielfältige und strukturierte Trajektorien zu synthetisieren, sowie die Erstellung von unabhängigen, ausführbaren und regel-verifizierbaren Umgebungen, sind entscheidend für den Erfolg.
Die Offenlegung der Daten-Synthesepipelines, der synthetisierten Umgebungen und der trainierten Modelle soll die Reproduzierbarkeit und zukünftige Forschung in diesem Bereich unterstützen. Zukünftige Arbeiten könnten die Integration von Multi-Turn-Benutzerinteraktionen während des Trainings und der Evaluierung umfassen, um die Robustheit gegenüber sich entwickelnden Absichten und interaktivem Feedback zu verbessern. Darüber hinaus könnte die Verfeinerung und Verifizierung der QA-abgeleiteten Topologie vor der Codegenerierung die Effizienz der Umgebungssynthese weiter steigern.
Die Kernbeiträge zu ASTRA wurden von Xiaoyu Tian, Haotian Wang, Shuaiting Chen, Hao Zhou, Kaichi Yu, Yudian Zhang, Jade Ouyang, Junxi Yin und Jiong Chen geleistet. Weitere Beiträge stammen von Baoyan Guo, Lei Zhang, Junjie Tao, Yuansheng Song, Ming Cui und Chengwei Liu.
Bibliography - Tian, X., Wang, H., Chen, S., Zhou, H., Yu, K., Zhang, Y., Ouyang, J., Yin, J., Chen, J., Guo, B., Zhang, L., Tao, J., Song, Y., Cui, M., & Liu, C. (2026). ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas. arXiv preprint arXiv:2601.21558. - Hugging Face. (2026). Paper page - ASTRA: Automated Synthesis of agentic Trajectories ... . Retrieved from https://huggingface.co/papers/2601.21558 - alphaXiv. (2026). ASTRA: Automated Synthesis of agentic Trajectories and ... . Retrieved from https://www.alphaxiv.org/abs/2601.21558 - Cool Papers. (2026). ASTRA: Automated Synthesis of agentic Trajectories ... . Retrieved from https://papers.cool/arxiv/2601.21558 - Hugging Face. (2026). Emperorizzis/ASTRA-14B-Thinking-v1. Retrieved from https://huggingface.co/Emperorizzis/ASTRA-14B-Thinking-v1 - Castellani, T., Ye, N., Mittal, D., Yen, T., & Namkoong, H. (2025). SynthTools: A Framework for Scaling Synthetic Tools for Agent Development. arXiv preprint arXiv:2511.09572. - Xie, J., Xu, D., Zhao, X., & Song, D. (n.d.). AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents. Retrieved from https://openreview.net/pdf?id=1pBaAob3f1 - Froger, R., Andrews, P., Bettini, M., Budhiraja, A., Cabral, R. S., Do, V., Garreau, E., Gaya, J.-B., Laurençon, H., Lecanu, M., Malkan, K., Mekala, D., Ménard, P., Bertran, G. M.-T., Piterbarg, U., Plekhanov, M., Rita, M., Rusakov, A., Vorotilov, V., Wang, M., Yu, I., Benhalloum, A., Mialon, G., & Scialom, T. (2025). ARE: Scaling Up Agent Environments and Evaluations. arXiv preprint arXiv:2509.17158.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen