STARE: Token-Level Stabilitätsverfahren gegen Policy-Entropie-Kollaps in GRPO-Training

18. June 202619. June 2026
AI Models, Claude AI

STARE nutzt Überraschungsmetriken und selektive Advantage-Reweighting, um Policy-Entropie über lange Trainingssequenzen stabil zu halten und dabei Genauigkeit um 4–8 % zu verbessern.

Share on:

GRAIL: Verbessertes Reinforcement Learning für mathematisches Reasoning in LLMs

4. June 20264. June 2026
AI Models, Claude AI, Claude Code

GRAIL nutzt Gradient-Aktivierungs-Salienz, um relevante Reasoning-Schritte stärker zu trainieren als irrelevante Token, und erreicht 3,60% Genauigkeitsverbesserung ohne separate Prozess-Level-Überwachung.

Share on:

STARE: Token-Level Stabilitätsverfahren gegen Policy-Entropie-Kollaps in GRPO-Training

GRAIL: Verbessertes Reinforcement Learning für mathematisches Reasoning in LLMs

Lumi AI News

Rechtliches

Themenbereiche