Fortschritte in der Entwicklung von Sprach-Weltmodellen für KI-Agenten

Kategorien:

No items found.

Freigegeben:

June 24, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Qwen-AgentWorld stellt eine neue Generation von Sprach-Weltmodellen vor, die darauf abzielen, die Fähigkeiten allgemeiner KI-Agenten zu erweitern.
Diese Modelle ermöglichen die Simulation von Agenten-Umgebungen über sieben verschiedene Domänen hinweg und nutzen dabei komplexe „Chain-of-Thought“-Begründungen.
Die Entwicklung von Qwen-AgentWorld erfolgte über einen dreistufigen Trainingsprozess: Common-Sense Pre-Training (CPT), Supervised Fine-Tuning (SFT) und Reinforcement Learning (RL).
Der eigens entwickelte Benchmark AgentWorldBench dient zur Bewertung der Leistung von Sprach-Weltmodellen und zeigt die Überlegenheit von Qwen-AgentWorld gegenüber bestehenden Modellen.
Qwen-AgentWorld kann als entkoppelter Umgebungssimulator für skalierbares Reinforcement Learning sowie als grundlegendes Agentenmodell zur Verbesserung der Leistung bei verschiedenen Aufgaben eingesetzt werden.

Die Forschung im Bereich der Künstlichen Intelligenz (KI) schreitet kontinuierlich voran, insbesondere im Hinblick auf die Entwicklung von Agenten, die in der Lage sind, komplexe Aufgaben in dynamischen Umgebungen zu meistern. Ein zentrales Element für die Leistungsfähigkeit solcher Agenten ist das sogenannte Weltmodell. Ein Weltmodell dient dazu, die Dynamik einer Umgebung basierend auf aktuellen Beobachtungen und Aktionen vorherzusagen. Es ist somit ein essenzieller kognitiver Mechanismus für die Argumentation und Planung von KI-Agenten. In diesem Kontext rückt die Entwicklung von Sprach-Weltmodellen, wie sie im Rahmen des Qwen-AgentWorld-Projekts vorgestellt werden, verstärkt in den Fokus der Aufmerksamkeit.

Die Rolle von Weltmodellen für Allgemeine Agenten

Allgemeine Agenten, die in der Lage sein sollen, eine Vielzahl von Aufgaben in unterschiedlichen Szenarien zu bewältigen, benötigen robuste Weltmodelle. Diese Modelle ermöglichen es den Agenten, die Konsequenzen ihrer Handlungen zu antizipieren und fundierte Entscheidungen zu treffen. Die Integration von Sprachmodellen in Weltmodelle eröffnet dabei neue Möglichkeiten, da Sprache eine natürliche Schnittstelle für die Interaktion mit und das Verständnis von komplexen Umgebungen darstellt. Die Fähigkeit, Umgebungsszenarien sprachlich zu simulieren, ist ein entscheidender Schritt auf dem Weg zu flexibleren und leistungsfähigeren KI-Agenten.

Qwen-AgentWorld: Ein Durchbruch in der Agenten-Umgebungssimulation

Das Team hinter Qwen hat mit Qwen-AgentWorld-35B-A3B und Qwen-AgentWorld-397B-A17B die ersten Sprach-Weltmodelle vorgestellt, die eine agentische Umgebungssimulation über sieben Domänen hinweg ermöglichen. Diese Modelle zeichnen sich durch ihre Fähigkeit zu langen „Chain-of-Thought“-Begründungen aus, was bedeutet, dass sie komplexe Denkprozesse nachvollziehen und simulieren können. Die Entwicklung dieser Modelle basiert auf der Nutzung von über 10 Millionen Interaktionstrajektorien aus realen Umgebungen, was eine umfassende und realitätsnahe Trainingsgrundlage darstellt.

Der Trainingsprozess von Qwen-AgentWorld gliedert sich in drei Hauptphasen:

Common-Sense Pre-Training (CPT): In dieser Phase werden die grundlegenden Weltmodellierungsfähigkeiten injiziert, basierend auf Zustandsübergangsdynamiken und erweiterten professionellen Korpora. Dies legt das Fundament für ein breites Verständnis von Umweltdynamiken.
Supervised Fine-Tuning (SFT): Hier wird die Fähigkeit zur Vorhersage des nächsten Zustands (Next-State-Prediction Reasoning) aktiviert. Durch überwachtes Lernen wird das Modell darauf trainiert, präzise Vorhersagen über die Entwicklung der Umgebung zu treffen.
Reinforcement Learning (RL): Die Simulationsgenauigkeit wird durch Reinforcement Learning geschärft. Ein maßgeschneiderter Rahmen mit hybriden Bewertungs- und Regelbelohnungen (Hybrid Rubric-and-Rule Rewards) optimiert das Modell, um realitätsnahe und konsistente Simulationen zu erzeugen.

AgentWorldBench: Ein neuer Standard für die Bewertung von Sprach-Weltmodellen

Um die Leistung von Sprach-Weltmodellen objektiv bewerten zu können, wurde der umfassende Benchmark AgentWorldBench entwickelt. Dieser Benchmark basiert auf realen Interaktionen von fünf führenden Modellen auf neun etablierten Benchmarks. Die empirischen Ergebnisse zeigen, dass Qwen-AgentWorld die bestehenden Modelle signifikant übertrifft, was die Effektivität des entwickelten Ansatzes unterstreicht.

Zwei Paradigmen zur Verbesserung allgemeiner Agenten

Über die Entwicklung von Basiskonzepten hinaus untersucht Qwen-AgentWorld zwei komplementäre Paradigmen, durch die Weltmodellierung die Fähigkeiten allgemeiner Agenten erweitert:

Entkoppelter Umgebungssimulator: Qwen-AgentWorld dient als skalierbarer und kontrollierbarer Simulator für Tausende von realen Umgebungen für agentisches Reinforcement Learning. Dies ermöglicht ein effizienteres Training von Agenten, das die Vorteile des Trainings in realen Umgebungen übertrifft. Die Möglichkeit, synthetische Umgebungen zu schaffen, die dennoch zuverlässige und konsistente Zustandsübergänge bieten, ist hierbei von großer Bedeutung.
Vereinheitlichtes Agenten-Grundlagenmodell: Das Weltmodell-Training fungiert als äußerst effektives „Warm-up“ und verbessert die Leistung bei nachgelagerten Aufgaben über sieben agentische Benchmarks hinweg. Dies deutet darauf hin, dass die Fähigkeit, Umweltdynamiken zu modellieren, eine grundlegende Kompetenz ist, die die Generalisierungsfähigkeit von Agenten erheblich steigern kann.

Ausblick und Implikationen für B2B-Anwendungen

Die Fortschritte im Bereich der Sprach-Weltmodelle, wie sie von Qwen-AgentWorld repräsentiert werden, haben weitreichende Implikationen für B2B-Anwendungen. Unternehmen, die auf intelligente Agentensysteme setzen, können von diesen Entwicklungen in mehrfacher Hinsicht profitieren:

Effizientere Agentenentwicklung: Die Möglichkeit, Agenten in hochpräzisen und skalierbaren simulierten Umgebungen zu trainieren, reduziert den Bedarf an ressourcenintensiven Tests in der realen Welt. Dies beschleunigt die Entwicklungszyklen und senkt Kosten.
Robusteres Verhalten von Agenten: Durch das Training mit umfassenden Weltmodellen können Agenten besser auf unerwartete Situationen reagieren und komplexere Entscheidungen treffen. Dies ist entscheidend für Anwendungen in Bereichen wie autonome Systeme, Kundenservice-Bots oder Prozessautomatisierung.
Verbesserte Generalisierungsfähigkeit: Agenten, die mit Sprach-Weltmodellen trainiert wurden, zeigen eine höhere Fähigkeit, ihr Wissen auf neue, unbekannte Aufgaben und Umgebungen zu übertragen. Dies eröffnet neue Anwendungsfelder und erhöht die Flexibilität der eingesetzten KI-Systeme.
Transparentere KI-Systeme: Die Fähigkeit der Modelle zu „Chain-of-Thought“-Begründungen kann dazu beitragen, die Entscheidungsfindung von Agenten nachvollziehbarer zu machen, was in regulierten Branchen oder bei kritischen Anwendungen von großer Bedeutung ist.

Die kontinuierliche Forschung und Entwicklung in diesem Bereich wird voraussichtlich zu weiteren Innovationen führen, die die Leistungsfähigkeit und Anwendungsbreite von KI-Agenten in den kommenden Jahren maßgeblich prägen werden. Die hier vorgestellten Sprach-Weltmodelle stellen einen wichtigen Schritt auf diesem Weg dar und bieten eine vielversprechende Grundlage für die nächste Generation intelligenter Systeme.

Bibliography: - Zuo, Yuxin et al. (2026). Qwen-AgentWorld: Language World Models for General Agents. Verfügbar unter: https://huggingface.co/papers/2606.24597 - Qwen Team (2026). Qwen-AgentWorld: Language World Models for General Agents. Verfügbar unter: https://arxiv.org/html/2606.24597 - Futo Niu Niu (2026). 千问正式发布 Qwen-AgentWorld. Verfügbar unter: https://news.futunn.com/flash/20445796/qwen-officially-launches-qwen-agentworld - Qwen (2026). Qwen-AgentWorld-35B-A3B. Verfügbar unter: https://huggingface.co/Qwen/Qwen-AgentWorld-35B-A3B - QwenLM (2023). QwenLM/Qwen-Agent. Verfügbar unter: https://github.com/QwenLM/Qwen-Agent - Richens, Jonathan; Everitt, Tom; Abel, David (2025). General agents need world models. Verfügbar unter: https://openreview.net/forum?id=dlIoumNiXt¬eId=NEjWpbpUaO - Wang, Zhaoyang et al. (2026). Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning. Verfügbar unter: https://arxiv.org/html/2602.10090v3 - Lu, Ning et al. (2026). Policy and World Modeling Co-Training for Language Agents. Verfügbar unter: https://arxiv.org/html/2606.02388v1 - Zhang, Jie et al. (2026). Qwen-RobotWorld Technical Report: Unifying Embodied World Modeling through Language-Conditioned Video Generation. Verfügbar unter: https://arxivsignals.io/papers/2606.17030 - Xiao, Zikai et al. (2026). WebWorld: A Large-Scale World Model for Web Agent Training. Verfügbar unter: https://huggingface.co/papers/2602.14721 - Renmin University of China, ByteDance Seed (2026). Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence. Verfügbar unter: https://arxiv.org/html/2604.18292v1