Ein CPU-basierter RL-Controller optimiert adaptives Sampling beim Test-Time Scaling und reduziert Rechenaufwand sowie Latenz gegenüber heuristischen Verfahren.
PaW trainiert Umweltmodelle während des Policy-Trainings anhand derselben RL-Rollouts, was die Agent-Performance konsistent verbessert, ohne zusätzliche Simulatoren oder Inference-Kosten zu benötigen.