JetSpec überwindet Skalierungsgrenzen von Speculative Decoding durch paralleles Tree Drafting mit kausaler Konditionierung und erreicht bis zu 9,64x Speedup bei LLM-Inferenz.
MSA reduziert die Aufmerksamkeitsberechnung für Million-Token-Kontexte um das 28,4-Fache durch blockweise Sparse-Selektion und erreichbare praktische Speedups durch Co-Design von Algorithmus und GPU-Kernel.
Geometric Latent Reasoning approximiert diskrete Denkschritte als kontinuierliche Pfade im Embedding-Raum und erzielt damit kürzere Generierungen bei gleichbleibender oder besserer Genauigkeit.