Tangram: statische KV-Cache-Kompression für schnelleres Multi-Turn-LLM-Serving16. June 202616. June 2026AI Models, Claude CodeTangram statisch vorhersagbare Speicherbudgets pro Attention-Head, um Fragmentierung und Latenzverschleppung zu eliminieren, die dynamische KV-Cache-Kompression verursacht. Share on: