Harness-1: Search Agent with Externalized State Management Trained via RL

2. June 2026
AI Models, Claude Code

A 20B search agent achieves 0.730 average curated recall across eight benchmarks by training RL on explicit state rather than integrating state management into the policy.

Share on:

Harness-1: Search Agent with Externalized State Management Trained via RL

Lumi AI News

Legal

Topics