Zum Inhalt springen

Alibaba stellt Qwen-AgentWorld vor: Sprachmodelle als Umgebungssimulator für Agenten

Auf den Punkt: Qwen-AgentWorld trainiert Sprachmodelle auf Basis von über 10 Millionen Interaktionstrajectories als Umweltsimulator, um KI-Agenten durch virtuelle Umgebungen zu trainieren und deren Performance über sieben Benchmarks zu verbessern.

Alibabas Qwen-Team hat mit Qwen-AgentWorld die ersten Sprachmodelle entwickelt, die Umgebungsdynamiken über sieben verschiedene Domänen hinweg simulieren können. Das neue Framework trainiert Large Language Models darauf, Agenten-Umgebungen vorherzusagen und zu kontrollieren.

Alibaba hat zwei neue Language World Models veröffentlicht: Qwen-AgentWorld-35B-A3B und Qwen-AgentWorld-397B-A17B. Diese Modelle sind darauf spezialisiert, Umgebungsdynamiken auf Basis von Beobachtungen und Aktionen vorherzusagen. Das Training nutzte über 10 Millionen aufgezeichnete Interaktionstrajectories aus sieben verschiedenen Domänen in echten Umgebungen.

Die Entwicklung folgte einer dreistufigen Pipeline: Continuous Pre-Training (CPT) injiziert allgemeine World-Modeling-Fähigkeiten anhand von Zustandsübergängen und erweiterter Fachliteratur. Supervised Fine-Tuning (SFT) aktiviert das Reasoning für Zustandsvorhersagen. Reinforcement Learning (RL) schärft die Simulationsgenauigkeit mittels eines hybriden Systems aus regelgestützten und rubrik-basierten Rewards. Zur Evaluierung präsentierten die Autoren AgentWorldBench, einen Benchmark aus realen Interaktionen fünf führender Modelle auf neun etablierten Agenten-Benchmarks.

Die Modelle unterstützen zwei komplementäre Paradigmen: Erstens als entkoppelter Umgebungssimulator ermöglicht Qwen-AgentWorld skalierbares und steuerbares Training von Tausenden simulierter Umgebungen für Agenten-RL – mit Ergebnissen, die reines Echtfeld-Training übertreffen. Zweitens, als einheitliches Agent-Fundament-Modell, dient das World-Modeling-Training als hocheffektive Vorwärmung für nachgelagerte Agent-Benchmarks über alle sieben Domänen hinweg.

Die Qwen-AgentWorld-Modelle übertreffen nach Herstellerangaben existierende Frontier-Modelle signifikant. Code und Modelle sind unter https://github.com/QwenLM/Qwen-AgentWorld verfügbar.


Quelle: arxiv.org · Erschienen 22. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.

Share on: