InfoKV: Entropy-Based KV-Cache Compression for Long Reasoning Sequences

26. June 2026
AI Models, Claude Code

InfoKV combines attention scores with uncertainty signals for KV-cache compression, outperforming pure attention-based methods on long reasoning tasks by measurable margins.

Share on:

Encoder-Decoder Architecture for Efficient Context Compression in LLMs

10. June 2026
AI Models, Claude Code

Encoder-decoder compressors with adaptive expansion improve KV-cache compression methods in speed and memory efficiency without significant quality loss.

Share on:

VaSE: Stochastic KV-Cache Eviction for Reasoning Models

3. June 2026
AI Models, Claude Code

VaSE achieves higher accuracy than existing sparse-attention methods at 4x KV-cache compression, thereby reducing the memory bottleneck of reasoning models.

Share on:

InfoKV: Entropy-Based KV-Cache Compression for Long Reasoning Sequences

Encoder-Decoder Architecture for Efficient Context Compression in LLMs

VaSE: Stochastic KV-Cache Eviction for Reasoning Models

Lumi AI News

Legal

Topics