SEVRA spart beim Inferenzen durch selektive Verifikation 26–91 Prozent Tokens ein, ohne die Genauigkeit zu beeinträchtigen, stellt aber längere initiale Lösungsversuche als teilweise kostengünstiger dar.
VaSE erreicht bei 4x KV-Cache-Kompression höhere Genauigkeit als bestehende Sparse-Attention-Methoden und reduziert damit den Speicher-Bottleneck von Reasoning-Modellen.