Auf den Punkt: Qwen-AgentWorld nutzt Sprachmodelle als gelernte Umweltsimulationen, um autonome Agenten effizient zu trainieren und ihr Reasoning über Kettenfolgerung zu verbessern.

Alibaba hat zwei Sprachmodelle (35 Milliarden und 397 Milliarden Parameter) veröffentlicht, die Umgebungsdynamiken simulieren und damit Agenten in sieben verschiedenen Domänen trainieren können – ohne echte Umgebungsinteraktion.

Alibaba hat zwei foundation models für agentenbasierte Umweltsimulation vorgestellt: Qwen-AgentWorld-35B-A3B und Qwen-AgentWorld-397B-A17B. Diese sind nach Angabe der Forscher die ersten Sprachmodelle, die agentenorientierte Umgebungen über sieben Domänen hinweg durch längere Kettenfolgerung simulieren können. Als Trainingsmaterial dienten über 10 Millionen Interaktions-Trajektorien aus realen Umgebungen.

Die Entwicklung folgte einer dreistufigen Trainingspipeline: In der Etappe CPT (Continual Pre-Training) wurden allgemeine World-Modeling-Fähigkeiten aus Zustandsübergängen und erweiterten Fachkorpora injiziert. Die SFT-Phase (Supervised Fine-Tuning) aktivierte die Fähigkeit zur Vorhersage des nächsten Zustands. In der RL-Phase (Reinforcement Learning) wurde die Simulationsgenauigkeit durch ein Framework mit hybriden rubrik- und regelbasierten Rewards optimiert. Parallel entwickelte das Team AgentWorldBench, eine Benchmark aus realen Interaktionen von fünf frontier models auf neun etablierten Benchmark-Sets.

Das Modell funktioniert in zwei komplementären Modi. Erstens dient es als entkoppelte Umweltsimulation, um tausende reale Umgebungen kontrolliert für agentenbasiertes RL zu simulieren – mit Leistungsgewinnen über reines Umwelttraining hinaus. Zweitens wirkt das World-Model-Training als effektiver Warm-up für ein einheitliches Agent-Foundation-Model und verbessert die nachgelagerte Performance über sieben agentenbasierte Benchmarks.

Der Code ist auf GitHub verfügbar (github.com/QwenLM/Qwen-AgentWorld). Die Ergebnisse zeigen laut Bericht deutliche Verbesserungen gegenüber bestehenden frontier models.

Quelle: arxiv.org · Erschienen 22. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.

Share on:

Alibabas Qwen-AgentWorld: Sprachmodelle als Umweltsimulation für intelligente Agenten

Lumi AI News

Rechtliches

Themenbereiche