Qwen-AgentWorld nutzt Sprachmodelle als gelernte Umweltsimulationen, um autonome Agenten effizient zu trainieren und ihr Reasoning über Kettenfolgerung zu verbessern.
EDV nutzt mehrere heterogene Agenten zur Generierung verschiedener Lösungsansätze, einen unabhängigen Verifikator und einen Konsens-Mechanismus, um fehlerhafte Erfahrungen vor dem Einspeichern herauszufiltern.
LLM-Agenten können sich früh auf eine falsche Lesart festlegen, ohne dass finale Antwortkorrektheit dies offenbarte — Hidden-State-Konvergenz ermöglicht eine Früherkennung dieses Fehlers.
RISE erreicht mit einem begrenzten Interaktionsraum ähnliche Genauigkeit wie unbegrenzte Shell-Interaktion, reduziert aber die Anfragen-Kosten auf etwa ein Viertel und skaliert deutlich besser auf große Korpora.
Agentenbasiertes Reasoning verbessert die Regelanwendung in Sprachmodellen, zeigt aber stark unterschiedliche Ergebnisse je nach Modellstärke und Aufgabentyp.
PaW trainiert Umweltmodelle während des Policy-Trainings anhand derselben RL-Rollouts, was die Agent-Performance konsistent verbessert, ohne zusätzliche Simulatoren oder Inference-Kosten zu benötigen.