Strukturierte Curriculum-Learning-Strategien, die Aufgabenbeziehungen im latenten Raum nutzen, erzielen bessere Downstream-Performance als reine Schwierigkeitspriorisierung.
STARE nutzt Überraschungsmetriken und selektive Advantage-Reweighting, um Policy-Entropie über lange Trainingssequenzen stabil zu halten und dabei Genauigkeit um 4–8 % zu verbessern.
ZPPO integriert Lehrermodelle als Prompt-Komponenten statt als Gradienten und verbessert damit die Generalisierung beim Wissenstransfer auf kleine Modelle.
RACES ermöglicht die automatische Komposition verifizierbarer Umgebungen durch rekursive Kombination, worauf hin DeepSeek-R1-Distill-Qwen-14B um 3,1 Punkte und Qwen3-14B um 2,3 Punkte bei sechs Benchmarks zulegte.
FlowTracer modelliert Informationspropagation als gerichteten Graphen und leitet Token-Credits aus globaler Flussstruktur ab, um Reinforcement-Learning-Signale präzise auf entscheidende Reasoning-Schritte zu konzentrieren.
FlowTracer weist Tokens Credit basierend auf ihrem gemessenen Informationsdurchsatz im Attention-Graphen zu statt alle gleich zu behandeln, was konsistente Leistungsgewinne bei Reasoning-Aufgaben bringt.
Reasoning Arena ersetzt uninformative Rewards durch Head-to-Head-Vergleiche von Lösungsversuchen und reduziert dabei die benötigte Rechenzeit um 27 bis 41 Prozent.
CHERRL ermöglicht durch kontrollierte Bias-Injektion eine reproduzierbare Analyse von Reward-Hacking-Mechanismen und automatische Detektion von Exploitations-Beginn in LLM-basiertem Training.
ThoughtFold identifiziert und entfernt überflüssige Explorations-Schritte in Reasoning-Ketten, senkt den Token-Verbrauch um 56% bei DeepSeek-R1-Distill-Qwen-7B und erhält dabei State-of-the-Art-Genauigkeit.
GRAIL nutzt Gradient-Aktivierungs-Salienz, um relevante Reasoning-Schritte stärker zu trainieren als irrelevante Token, und erreicht 3,60% Genauigkeitsverbesserung ohne separate Prozess-Level-Überwachung.