Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die jüngsten Fortschritte im Bereich der grossen Sprachmodelle (LLMs) haben die Entwicklung autonomer Agenten vorangetrieben, die komplexe Aufgaben durch mehrstufige Interaktionen mit Tools und Umgebungen bewältigen können. Eine zentrale Herausforderung bei der Skalierung des Trainings solcher Agenten ist jedoch der Mangel an vielfältigen und zuverlässigen Trainingsumgebungen. Hier setzt das Agent World Model (AWM) an, eine innovative Pipeline zur Generierung vollständig synthetischer Umgebungen, die darauf abzielt, diese Lücke zu schliessen und das Reinforcement Learning (RL) für Agenten auf ein neues Niveau zu heben.
Das Training von KI-Agenten erfordert eine immense Menge an Interaktionen mit verschiedenen Umgebungen. Realistische Umgebungen sind oft teuer in der Nutzung, schwer zu skalieren und bieten nicht immer die notwendige Konsistenz für effektives RL. Darüber hinaus mangelt es an Open-Source-Umgebungen, die für das Training von Agenten in grossem Massstab geeignet sind. Bestehende Benchmarks, die oft von Menschen erstellt werden, sind in ihrer Anzahl begrenzt und können nicht die Vielfalt bieten, die für die Entwicklung generalisierungsfähiger Agenten erforderlich ist.
LLM-basierte Simulationen von Umgebungen leiden zudem unter dem Problem der "Halluzination" und sind aufgrund der hohen Inferenzkosten von LLMs oft ineffizient. Diese Limitationen unterstreichen die dringende Notwendigkeit einer Methode zur skalierbaren Synthese ausführbarer, zuverlässiger Umgebungen, die reproduzierbare Agenteninteraktion und -lernen ermöglichen.
Das AWM-Framework, entwickelt von einem Team unter der Leitung von Zhaoyang Wang, schlägt eine offene Pipeline vor, die ausführbare Tool-Nutzungs-Umgebungen in grossem Massstab synthetisiert. Der Kernansatz von AWM besteht darin, Agenten-Umgebungen als eine Kombination aus einem zustandsbehafteten Backend, einer Tools-Schnittstellenschicht und aufgabenspezifischen Erfolgskriterien zu betrachten. Durch die Zerlegung der Synthese in diese drei Komponenten können LLMs systematisch jeden Teil generieren und dabei die Konsistenz wahren.
Die AWM-Pipeline beginnt mit der Generierung von Szenarien und Aufgaben und schreitet dann zur Synthese der Umgebung selbst fort:
Die in AWM synthetisierten Umgebungen ermöglichen ein umfangreiches Online-Reinforcement Learning für Tool-nutzende Agenten. Dabei kommt die Group Relative Policy Optimization (GRPO) zum Einsatz, eine Methode, die für die Stabilität bei langzeitigen Interaktionen mit verschachtelten Beobachtungen und Tool-Aufrufen entscheidend ist.
Die Wirksamkeit von AWM wurde durch Experimente auf drei Out-of-Distribution-Benchmarks (BFCLv3, τ²-bench und MCP-Universe) demonstriert. Die Ergebnisse zeigen, dass Agenten, die ausschliesslich in den synthetischen AWM-Umgebungen trainiert wurden, eine starke Generalisierungsfähigkeit aufweisen und in allen Benchmarks bessere Leistungen erzielen als Baselines, die in benchmarkspezifischen Umgebungen oder LLM-simulierten Umgebungen trainiert wurden.
Der Vergleich mit Simulator-Ansätzen unterstreicht, dass code-basierte Umgebungen mit Zustands-Konsistenz ein stabileres Lernsignal liefern als LLM-generierte Interaktionen und die RL-Latenz erheblich reduzieren.
Die synthetisierten AWM-Umgebungen wurden hinsichtlich ihrer Qualität und Diversität bewertet. Eine Analyse von 100 Stichprobenumgebungen zeigte, dass AWM in Bezug auf Aufgabenrealisierbarkeit, Daten-Alignment und Toolset-Vollständigkeit konsistent besser abschneidet als vergleichbare Ansätze wie EnvScaler. Trotz einer dreifach höheren Codebasis im Vergleich zu EnvScaler führt die Skalierung bei AWM nur zu einem moderaten Anstieg an Fehlern, was die Effizienz der Skalierung unterstreicht.
Die Diversität der Umgebungen wurde durch Einbettungsanalysen und Themenabdeckung bestätigt, was darauf hindeutet, dass AWM kontinuierlich neue und vielfältige Inhalte generiert, anstatt Duplikate zu produzieren.
Ein detaillierter Vergleich von drei Verifikationsstrategien (nur LLM, nur Code, Code-augmentiert) zeigte, dass die Code-augmentierte Methode, die strukturierte Verifikationssignale mit einem fortschrittlichen LLM-basierenden Richter kombiniert, die robustesten Belohnungen für das RL-Training in synthetischen Umgebungen liefert.
Das Agent World Model (AWM) stellt einen bedeutenden Fortschritt im Bereich des Reinforcement Learnings für Agenten dar. Durch die Bereitstellung einer skalierbaren Pipeline zur Synthese ausführbarer, code-gesteuerter und datenbankgestützter Umgebungen überwindet AWM wesentliche Limitationen traditioneller Trainingsansätze. Die Fähigkeit von in AWM trainierten Agenten, auf unbekannten Domänen zu generalisieren, unterstreicht das Potenzial dieser Methodik für die Entwicklung robuster und vielseitiger KI-Agenten.
Die Quelloffenheit der Pipeline und der synthetisierten Umgebungen soll die Forschungsgemeinschaft dabei unterstützen, agentische Systeme weiter zu erforschen und die Entwicklung von KI-Agenten voranzutreiben, die komplexe Aufgaben in dynamischen Umgebungen autonom bewältigen können. Zukünftige Arbeiten könnten die Optimierung der Synthese-Pipeline, die Erweiterung auf noch komplexere Aufgaben und die Implementierung von selbstentwickelnden Paradigmen umfassen, bei denen der Agent zur Synthese neuer Umgebungen beiträgt.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen