Zum Inhalt springen

Tangram: statische KV-Cache-Kompression für schnelleres Multi-Turn-LLM-Serving

Auf den Punkt: Tangram statisch vorhersagbare Speicherbudgets pro Attention-Head, um Fragmentierung und Latenzverschleppung zu eliminieren, die dynamische KV-Cache-Kompression verursacht.

Forscher präsentieren Tangram, ein Serving-Framework für große Sprachmodelle, das heterogene Key-Value-Cache-Kompression mit struktureller Vorhersage praktikabel macht. Das System beseitigt Speicherfragmentierung und Latenzverschleppung, die bisherige Ansätze verursacht haben.

Bei Multi-Turn-Dialogen wächst der KV-Cache kontinuierlich mit jeder Antwort und jedem Nutzer. In modernen Setups wird Speicher, nicht Rechenleistung, zum Engpass für den Durchsatz. Während nicht-uniforme Kompression — unterschiedliche Kompressionsquoten für einzelne Attention-Heads — die Genauigkeit bewahrt, verursacht sie in existierenden Serving-Stacks massive Probleme: unterschiedliche KV-Längen pro Head führen zu Speicherfragmentierung, verbrauchen bis zu 25 % der Prefill-Zeit für Speicheraufräumungen und verursachen GPU-Schieflast mit bis zu 1,7× längeren Decode-Latenzen oder 15–20 % Overhead pro Decode-Schritt durch Re-Planung.

Tangram nutzt eine Beobachtung: Die notwendige Kopfweise Retention folgt einer zwei-stufigen Strukturregelmäßigkeit — eine eingabe-invariante Head-Rangfolge mit eng begrenzten per-Head-Verhältnissen. Diese kann offline aus nur 50 Samples kalibriert werden. Das Framework setzt drei Mechanismen um: Budget Reservation legt den Post-Kompression-Speicherfuß jedes Heads bei der Planung fest und eliminiert Speicheraufräumungen; Ragged Paging clustert ähnlich-budgetierte Heads in eigenständige Page Tables und macht Fragmentation reclaimbar; Ahead-of-Time Load Balancing berechnet balancierte GPU-Partitionen ohne Laufzeit-Planung vor.

Als Drop-in-Substrate auf vLLM implementiert, erreicht Tangram bis zu 2,6× höheren durchschnittlichen Durchsatz gegenüber vollständiger KV-Verarbeitung, während die Genauigkeit bestehender Nicht-Uniform-Kompressionsverfahren erhalten bleibt. Der Code ist unter https://github.com/aiha-lab/TANGRAM öffentlich verfügbar.


Quelle: arxiv.org · Erschienen 14. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.

Share on: