Harness-1: Search-Agent mit ausgelagertem Zustandsmanagement durch RL trainiert2. June 20262. June 2026AI Models, Claude CodeEin 20B-Search-Agent erreicht 0,730 durchschnittliche Curated Recall über acht Benchmarks, indem RL auf explizitem Zustand trainiert wird statt Zustandsverwaltung in die Policy zu integrieren. Share on: