JetSpec: Paralleles Tree Drafting löst Bottleneck in Speculative Decoding

26. June 202626. June 2026
AI Models, Claude AI

JetSpec überwindet Skalierungsgrenzen von Speculative Decoding durch paralleles Tree Drafting mit kausaler Konditionierung und erreicht bis zu 9,64x Speedup bei LLM-Inferenz.

Share on:

EfficientRollout: Selbstspekulative Dekodierung für schnellere RL-Rollouts

18. June 202619. June 2026
AI Models, Claude Code

EfficientRollout nutzt selbstspekulative Dekodierung mit adaptiver Systemauslastung, um Rollout-Latenz in RL-Szenarien zu senken, ohne separate Drafter-Pretraining oder das Zielmodell zu gefährden.

Share on:

P-EAGLE: Parallele Spekulation für schnellere LLM-Inferenz auf AWS SageMaker

16. June 202616. June 2026
AI Models, Claude Code

AWS hat mit P-EAGLE eine parallelisierte Variante von Speculative Decoding entwickelt, die Draft-Tokens in einem Forward-Pass statt sequenziell erzeugt und damit Inferenzdurchsatz auf SageMaker AI um bis zu 1,69x erhöht.

Share on:

Bebop: Rejection Sampling verbessert Multi-Token-Prediction in RL-Training

11. June 202611. June 2026
AI Models, Claude Code

Bebop nutzt Rejection Sampling und TV-Loss-Optimierung, um MTP-Akzeptanzraten in RL-Training stabil zu halten und Rollouts um bis zu 1,8-fach zu beschleunigen.

Share on:

JetSpec: Paralleles Tree Drafting löst Bottleneck in Speculative Decoding

EfficientRollout: Selbstspekulative Dekodierung für schnellere RL-Rollouts

P-EAGLE: Parallele Spekulation für schnellere LLM-Inferenz auf AWS SageMaker

Bebop: Rejection Sampling verbessert Multi-Token-Prediction in RL-Training

Lumi AI News

Rechtliches

Themenbereiche