Tangram: Static KV-Cache Compression for Faster Multi-Turn LLM Serving

16. June 2026
AI Models, Claude Code

Tangram achieves statically predictable memory budgets per attention head to eliminate fragmentation and latency drag caused by dynamic KV-cache compression.

Share on:

DiffusionGemma: Diffusion-Based Text Generation Instead of Token-by-Token Approach

10. June 2026
AI Models, Claude AI

DiffusionGemma replaces the traditional sequential token-generation process with parallel denoising of 256-token blocks, enabling faster inference and improved problem-solving capabilities for complex tasks.

Share on:

KVarN: Variance-Based KV-Cache Quantization Reduces Error Accumulation

3. June 2026
AI Models, Claude Code

KVarN reduces error accumulation when quantizing KV-caches to 2-bit precision through improved token-scale normalization and achieves state-of-the-art results on MATH500, AIME24, and HumanEval.

Share on:

Tangram: Static KV-Cache Compression for Faster Multi-Turn LLM Serving

DiffusionGemma: Diffusion-Based Text Generation Instead of Token-by-Token Approach

KVarN: Variance-Based KV-Cache Quantization Reduces Error Accumulation

Lumi AI News

Legal

Topics