Automatisierung des Trainings von Sprachmodellen mit ASTRA

Kategorien:

No items found.

Freigegeben:

February 2, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

ASTRA ist ein Framework zur Automatisierung des Trainings von Sprachmodellen, die mit Tools erweitert werden, um komplexe Entscheidungen zu treffen.
Es adressiert Herausforderungen wie manuelle Intervention, nicht überprüfbare Umgebungen und Schwierigkeiten beim stabilen Lernen über mehrere Schritte.
ASTRA verwendet zwei Hauptkomponenten: eine Pipeline zur Synthese von Trajektorien mittels Werkzeug-Aufruf-Graphen und ein Framework zur Synthese überprüfbarer Umgebungen.
Die Trainingsmethodik kombiniert Supervised Fine-Tuning (SFT) mit Online Reinforcement Learning (RL), um sowohl Aufgabenerfüllung als auch Interaktionseffizienz zu optimieren.
ASTRA-Modelle erreichen in Benchmarks, die den Einsatz von Agenten mit Tools bewerten, eine hohe Leistung und nähern sich der Effizienz geschlossener Systeme an.
Die irrelevanten Werkzeug-Mischstrategien und das F1-basierte Belohnungssystem sind entscheidend für die Verbesserung der Werkzeug-Diskriminierung und die Stabilität des Trainings.

Automatisierte Trajektoriensynthese und Reinforcement Arenen für Agenten

Die Entwicklung von Large Language Models (LLMs) hin zu intelligenten Agenten, die in der Lage sind, komplexe, mehrstufige Entscheidungen unter Einsatz von Tools zu treffen, stellt einen bedeutenden Fortschritt in der Künstlichen Intelligenz dar. Trotz dieser Fortschritte bleiben jedoch erhebliche Herausforderungen bestehen, insbesondere im Hinblick auf die Robustheit und Skalierbarkeit des Trainings solcher Agenten. Manuelle Eingriffe, die Abhängigkeit von nicht verifizierbaren Simulationsumgebungen sowie Schwierigkeiten beim stabilen Lernen über längere Interaktionssequenzen hinweg sind typische Hürden. In diesem Kontext wurde ein neues Framework namens ASTRA vorgestellt, das eine vollständig automatisierte End-to-End-Lösung für das Training tool-erweiterter Sprachmodell-Agenten bietet.

Die Kernkomponenten von ASTRA

ASTRA integriert zwei komplementäre Hauptkomponenten, die darauf abzielen, die genannten Herausforderungen zu überwinden:

Pipeline zur Trajektoriensynthese: Diese Komponente nutzt die statische Topologie von Werkzeug-Aufruf-Graphen, um vielfältige und strukturell fundierte Trajektorien zu synthetisieren. Dies fördert eine breite und übertragbare Kompetenz im Werkzeugeinsatz.
Framework zur Umgebungssynthese: Es erfasst die komplexe, kompositionelle Topologie des menschlichen semantischen Denkens. Dabei werden zerlegte Frage-Antwort-Spuren in unabhängige, code-ausführbare und regel-verifizierbare Umgebungen umgewandelt, was ein deterministisches Multi-Turn Reinforcement Learning ermöglicht.

Durch die Kombination dieser Elemente ermöglicht ASTRA eine vereinheitlichte Trainingsmethodik, die Supervised Fine-Tuning (SFT) mit Online Reinforcement Learning (RL) verknüpft. Hierbei kommen Belohnungen auf Trajektorien-Ebene zum Einsatz, um ein Gleichgewicht zwischen der Erfüllung von Aufgaben und der Effizienz der Interaktion herzustellen.

Herausforderungen im Agenten-Training

Bestehende Methoden zum Training von tool-nutzenden Agenten weisen oft mehrere Limitationen auf:

Manuelle Intervention: Viele Ansätze erfordern weiterhin menschliche Eingriffe bei der Datenerstellung und Validierung, was die Skalierbarkeit und Reproduzierbarkeit einschränkt.
Nicht verifizierbare Umgebungen: Einige Methoden verlassen sich auf LLM-simulierte Umgebungen, bei denen Werkzeugausführungen und Zustandsübergänge nicht explizit regelbasiert oder über ausführbare Backends verifiziert werden können. Dies begrenzt die Stabilität des Reinforcement Learnings über längere Zeiträume.
Isolierte Trainingsregime: Viele Ansätze konzentrieren sich entweder ausschließlich auf SFT oder RL. SFT-basierte Methoden profitieren nicht von Online-Lernsignalen aus der Umgebungsinteraktion, während RL-basierte Methoden durch die Fähigkeiten des ursprünglichen Modells begrenzt sind.
Instabiles Langzeitlernen: Das Lernen über viele Schritte und Interaktionen hinweg bleibt eine Herausforderung, insbesondere wenn es darum geht, kohärente und stabile Entscheidungsfindungen zu gewährleisten.

ASTRA's Ansatz zur Daten- und Umgebungssynthese

Multi-Turn Trajektoriensynthese

Die Trajektoriensynthese in ASTRA beginnt mit der Sammlung und Normalisierung von Werkzeugdokumenten aus verschiedenen Quellen. Diese Dokumente werden in ein einheitliches Schema überführt, das mit dem OpenAI Client Tool-Calling-Protokoll kompatibel ist. Anschließend werden die Tools nach Diensten gruppiert und gefiltert, um nur solche zu behalten, die sinnvolle mehrstufige Interaktionen unterstützen.

Ein zentraler Schritt ist die Konstruktion von Werkzeugketten. Ein LLM synthetisiert hierbei nutzerrelevante Aufgaben und plausible Werkzeugketten, die zur Lösung dieser Aufgaben verwendet werden könnten. Diese Ketten berücksichtigen die Eingabeschemata und Dokumentationen der Tools. Zur Generierung von Kandidatenketten werden gerichtete Übergangsgraphen erstellt und darauf basierend längenbeschränkte Zufallspfade generiert. Jede Kette wird auf Inter-Tool-Abhängigkeiten und Aufgaben-Ketten-Kohärenz überprüft.

Die Aufgabenkonstruktion erfolgt über eine Kombination aus kettenkonditionierter und server-only Konstruktion, um Realismus und Abdeckung zu gewährleisten. Aufgaben werden dann durch Paraphrasierung, Komplexitätssteigerung und persona-konditionierte Anpassung erweitert. Schließlich werden die Aufgaben nach Qualität bewertet und gefiltert, basierend auf Kriterien wie Fragenqualität, Szenariorealismus und Notwendigkeit des Werkzeugeinsatzes.

Die Trajektoriensammlung erfolgt über Multi-Turn-Interaktionen, wobei ein Agenten-Framework (z.B. Qwen-Agent) verwendet wird. Die Werkzeugpool besteht aus bereitgestellten MCP-Servern (Tool-Aufrufe werden direkt ausgeführt) und rein dokumentenbasierten MCP-Servern, für die plausible Ausgaben emuliert werden, inklusive der Injektion von Fehlern, um die Realität abzubilden.

Ein Belohnungsmodell bewertet die Qualität der Trajektorien, ohne manuelle Annotationen. Dies umfasst die Bewertung von Abfrageverständnis, Planung, Werkzeugantwort-Verständnis, Werkzeugaufrufstatus (Erfolgsrate), Werkzeugprägnanz (Notwendigkeit der Aufrufe) und die Qualität der finalen Antwort. Diese sieben Kennzahlen werden zu einer einzigen Skalarbelohnung aggregiert.

Automatisierte Verifizierbare Umgebungssynthese

Die Umgebungssynthese in ASTRA zielt darauf ab, skalierbare und verifizierbare Umgebungen für das Reinforcement Learning bereitzustellen. Dies geschieht in vier Hauptphasen:

QA-Instanz-Synthese als semantische Topologieextraktion: Jede Instanz wird als Hauptfrage mit Hauptantwort und einer Sammlung von Zwischen-Unterfragen und -antworten formalisiert. Die Ableitung der Endantwort modelliert die Aggregation der Unterantworten gemäß ihres Abhängigkeitsgraphen.
Qualitätsvalidierung: Synthetisierte QA-Instanzen werden gefiltert, um sicherzustellen, dass Zwischenfragen, die keine Werkzeugaufrufe erfordern, nur an Blattknoten auftreten. Die Qualität wird anhand von Abhängigkeitskonsistenz, Atomizität der Unterfragen, sequenzieller Rationalität und Aufgabenkomplettheit bewertet.
Umgebungssynthese: Für jede validierte QA-Instanz wird eine unabhängige Umgebung synthetisiert. Dies beinhaltet die Generierung von Werkzeugspezifikationen, die Skalierung ihrer Komplexität und die Implementierung von Python-Tools, die in einer Sandbox-Umgebung verifiziert werden.
Unterumgebungszusammenführung: Funktionell äquivalente Unterfragen werden identifiziert und ihre Unterumgebungen zusammengeführt, um eine Inflation des Aktionsraums zu vermeiden und die Effizienz zu steigern.

Training und Evaluierung von Tool-Agenten

Das Training von ASTRA-Modellen erfolgt in zwei Stufen: Supervised Fine-Tuning (SFT) und Reinforcement Learning (RL). Das SFT-Training nutzt eine Infrastruktur, die Checkpoints effizient speichert und Parameter-Snapshots von Trainingszustands-Serialisierungen entkoppelt. Das RL-Training erfolgt über eine Sammlung instanzspezifischer, vollständig isolierter Simulatoren, wobei ein Online-Multi-Turn-Ansatz verfolgt wird. Bei jedem Interaktionsschritt generiert das Modell eine Werkzeugaufrufanweisung, die in einer Code-Sandbox ausgeführt wird, um ein Ergebnis zu liefern, das als Beobachtung zurück zum Modell geführt wird.

Die Belohnung im RL-Training basiert auf einem F1-ähnlichen System, das sowohl die Aufgabenerfüllung (Recall) als auch die Interaktionseffizienz (Precision) berücksichtigt. Dies motiviert den Agenten, möglichst viele Unteraufgaben zu lösen und gleichzeitig redundante Werkzeugaufrufe zu minimieren.

Zur Verbesserung der Robustheit bei der Werkzeugauswahl wird eine Strategie des Mischens irrelevanter Werkzeuge angewendet. Hierbei werden dem Agenten während des RL-Trainings gezielt irrelevante Werkzeuge aus verschiedenen semantischen Ähnlichkeitsbereichen präsentiert. Dies fördert die Fähigkeit des Modells, relevante Werkzeuge zu diskriminieren, anstatt sich an eine feste oder zu "saubere" Werkzeugliste anzupassen.

Empirische Ergebnisse und Diskussion

Experimente auf mehreren Benchmarks für den Einsatz von Agenten mit Tools (BFCL-MT, τ²-Bench, ACEBench) zeigen, dass ASTRA-trainierte Modelle eine hohe Leistung erreichen und mit geschlossenen Systemen vergleichbar sind, während sie ihre Kern-Argumentationsfähigkeit beibehalten. Die Analyse der Trainingsstufen verdeutlicht, dass sowohl SFT als auch RL zu Leistungssteigerungen führen, wobei die RL-Phase den größten Beitrag leistet.

Die Untersuchung des irrelevanten Werkzeug-Mischens ergab, dass das Entfernen irrelevanter Werkzeuge zu einer schlechteren Leistung führt, da das Modell zu stark an spezifische Auswahlmuster angepasst wird. Das zufällige Mischen irrelevanter Werkzeuge verbessert die Leistung, bleibt aber dem vollständigen ASTRA-Setup unterlegen, das ein ausgewogenes Mischen über verschiedene Ähnlichkeitsbänder hinweg vorsieht.

Die Gestaltung der Belohnungsfunktion hat ebenfalls einen signifikanten Einfluss auf das Werkzeugnutzungsverhalten. Eine reine Recall-Optimierung kann zu einer Explosion der Interaktionsschritte führen, während eine reine Präzisionsoptimierung ein übermäßig konservatives Verhalten fördert. Die F1-Belohnung hingegen führt zu stabilen Interaktionslängen und einem ausgewogenen Kompromiss zwischen Exploration und Exploitation.

Eine Analyse des Verhaltens in verschiedenen Trainingsphasen zeigt, dass die Anzahl der Interaktionsschritte über die Phasen hinweg weitgehend konstant bleibt, während die Ausgabelänge des Modells variiert. Das SFT-Modell erzeugt die kürzesten Ausgaben, während das RL-trainierte Modell eine mittlere Länge erreicht, die länger ist als SFT, aber kürzer als das Originalmodell.

Zusammenfassung und Ausblick

ASTRA bietet ein vollständig automatisiertes Framework für das Training von tool-erweiterten Sprachmodell-Agenten. Durch die Kombination von skalierbarer Datensynthese und überprüfbarem Multi-Turn Reinforcement Learning adressiert es zentrale Herausforderungen im Bereich des Agenten-Trainings. Die Fähigkeit, vielfältige und strukturierte Trajektorien zu synthetisieren, sowie die Erstellung von unabhängigen, ausführbaren und regel-verifizierbaren Umgebungen, sind entscheidend für den Erfolg.

Die Offenlegung der Daten-Synthesepipelines, der synthetisierten Umgebungen und der trainierten Modelle soll die Reproduzierbarkeit und zukünftige Forschung in diesem Bereich unterstützen. Zukünftige Arbeiten könnten die Integration von Multi-Turn-Benutzerinteraktionen während des Trainings und der Evaluierung umfassen, um die Robustheit gegenüber sich entwickelnden Absichten und interaktivem Feedback zu verbessern. Darüber hinaus könnte die Verfeinerung und Verifizierung der QA-abgeleiteten Topologie vor der Codegenerierung die Effizienz der Umgebungssynthese weiter steigern.

Danksagung

Die Kernbeiträge zu ASTRA wurden von Xiaoyu Tian, Haotian Wang, Shuaiting Chen, Hao Zhou, Kaichi Yu, Yudian Zhang, Jade Ouyang, Junxi Yin und Jiong Chen geleistet. Weitere Beiträge stammen von Baoyan Guo, Lei Zhang, Junjie Tao, Yuansheng Song, Ming Cui und Chengwei Liu.

Bibliography - Tian, X., Wang, H., Chen, S., Zhou, H., Yu, K., Zhang, Y., Ouyang, J., Yin, J., Chen, J., Guo, B., Zhang, L., Tao, J., Song, Y., Cui, M., & Liu, C. (2026). ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas. arXiv preprint arXiv:2601.21558. - Hugging Face. (2026). Paper page - ASTRA: Automated Synthesis of agentic Trajectories ... . Retrieved from https://huggingface.co/papers/2601.21558 - alphaXiv. (2026). ASTRA: Automated Synthesis of agentic Trajectories and ... . Retrieved from https://www.alphaxiv.org/abs/2601.21558 - Cool Papers. (2026). ASTRA: Automated Synthesis of agentic Trajectories ... . Retrieved from https://papers.cool/arxiv/2601.21558 - Hugging Face. (2026). Emperorizzis/ASTRA-14B-Thinking-v1. Retrieved from https://huggingface.co/Emperorizzis/ASTRA-14B-Thinking-v1 - Castellani, T., Ye, N., Mittal, D., Yen, T., & Namkoong, H. (2025). SynthTools: A Framework for Scaling Synthetic Tools for Agent Development. arXiv preprint arXiv:2511.09572. - Xie, J., Xu, D., Zhao, X., & Song, D. (n.d.). AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents. Retrieved from https://openreview.net/pdf?id=1pBaAob3f1 - Froger, R., Andrews, P., Bettini, M., Budhiraja, A., Cabral, R. S., Do, V., Garreau, E., Gaya, J.-B., Laurençon, H., Lecanu, M., Malkan, K., Mekala, D., Ménard, P., Bertran, G. M.-T., Piterbarg, U., Plekhanov, M., Rita, M., Rusakov, A., Vorotilov, V., Wang, M., Yu, I., Benhalloum, A., Mialon, G., & Scialom, T. (2025). ARE: Scaling Up Agent Environments and Evaluations. arXiv preprint arXiv:2509.17158.