REVES nutzt Zwischenschritte aus erfolgreichen Fehlerbehebungen als separate Trainingsdaten und erreicht damit bessere Leistung mit weniger Rechenaufwand als konventionelle Multi-Turn-Reinforcement-Learning-Methoden.
EfficientRollout nutzt selbstspekulative Dekodierung mit adaptiver Systemauslastung, um Rollout-Latenz in RL-Szenarien zu senken, ohne separate Drafter-Pretraining oder das Zielmodell zu gefährden.
Bebop nutzt Rejection Sampling und TV-Loss-Optimierung, um MTP-Akzeptanzraten in RL-Training stabil zu halten und Rollouts um bis zu 1,8-fach zu beschleunigen.