Bebop: Rejection Sampling verbessert Multi-Token-Prediction in RL-Training11. June 202611. June 2026AI Models, Claude CodeBebop nutzt Rejection Sampling und TV-Loss-Optimierung, um MTP-Akzeptanzraten in RL-Training stabil zu halten und Rollouts um bis zu 1,8-fach zu beschleunigen. Share on: