JetSpec überwindet Skalierungsgrenzen von Speculative Decoding durch paralleles Tree Drafting mit kausaler Konditionierung und erreicht bis zu 9,64x Speedup bei LLM-Inferenz.
EfficientRollout nutzt selbstspekulative Dekodierung mit adaptiver Systemauslastung, um Rollout-Latenz in RL-Szenarien zu senken, ohne separate Drafter-Pretraining oder das Zielmodell zu gefährden.
AWS hat mit P-EAGLE eine parallelisierte Variante von Speculative Decoding entwickelt, die Draft-Tokens in einem Forward-Pass statt sequenziell erzeugt und damit Inferenzdurchsatz auf SageMaker AI um bis zu 1,69x erhöht.
Bebop nutzt Rejection Sampling und TV-Loss-Optimierung, um MTP-Akzeptanzraten in RL-Training stabil zu halten und Rollouts um bis zu 1,8-fach zu beschleunigen.