InfoKV kombiniert Attention-Scores mit Unsicherheitssignalen zur KV-Cache-Kompression und übertrifft damit reine Attention-basierte Methoden bei langem Reasoning um messbare Margen.
Encoder-Decoder-Kompressoren mit adaptiver Expansion verbessern KV-Cache-Kompressionsmethoden in Geschwindigkeit und Speichereffizienz, ohne nennenswerte Qualitätsverluste.
VaSE erreicht bei 4x KV-Cache-Kompression höhere Genauigkeit als bestehende Sparse-Attention-Methoden und reduziert damit den Speicher-Bottleneck von Reasoning-Modellen.