REVES nutzt Zwischenschritte aus erfolgreichen Fehlerbehebungen als separate Trainingsdaten und erreicht damit bessere Leistung mit weniger Rechenaufwand als konventionelle Multi-Turn-Reinforcement-Learning-Methoden.
KVarN reduziert durch verbesserte Token-Scale-Normalisierung die Fehlerakkumulation beim Quantisieren von KV-Caches auf 2-Bit-Genauigkeit und erreicht State-of-the-Art-Ergebnisse auf MATH500, AIME24 und HumanEval.
Ein CPU-basierter RL-Controller optimiert adaptives Sampling beim Test-Time Scaling und reduziert Rechenaufwand sowie Latenz gegenüber heuristischen Verfahren.