Zum Inhalt springen

InfoKV: Entropie-basierte KV-Cache-Kompression für lange Reasoning-Sequenzen

Auf den Punkt: InfoKV kombiniert Attention-Scores mit Unsicherheitssignalen zur KV-Cache-Kompression und übertrifft damit reine Attention-basierte Methoden bei langem Reasoning um messbare Margen.

Forscher stellen InfoKV vor, eine Methode zur Kompression von Key-Value-Caches in großen Sprachmodellen, die neben Attention-Gewichten auch Unsicherheitssignale nutzt. Das Verfahren verbessert die Effizienz in Long-Context-Szenarien deutlich, ohne dabei Reasoning-Qualität einzubußen.

Beim Reasoning mit großen Sprachmodellen wächst der Key-Value-Cache — der Speicher für bereits verarbeitete Token — in Prefilling- und Decoding-Phase stark an. Bestehende Kompressionsmethoden stützen sich hauptsächlich auf Attention-Gewichte, um wichtige Token zu identifizieren. Dabei wird jedoch übersehen, dass Attention nur lokale Kontextmuster erfasst.

Die Arbeit führt „Forward Influence” ein: eine Metrik, die misst, wie sich komprimierte Token auf zukünftige Kontexte auswirken. Die Analyse zeigt, dass Attention-basiert ausgewählte Token vorrangig nahegelegene Kontexte beeinflussen. Token mit hoher prädiktiver Unsicherheit dagegen haben deutlich stärkere Auswirkungen auf entferntere zukünftige Kontexte — ein Effekt, den reine Attention-Methoden übersehen.

InfoKV integriert diese Erkenntnisse durch eine entropie-bewusste Kompressionsstrategie: Token-Level-Unsicherheit wird mit Layer-weiser Representationsevolution kombiniert. Diese kombinierten Entropie-Scores werden während des Reasoning mit Attention-Scores zusammengeführt. Tests auf Long-Context-Benchmarks mit Llama-3.1, Llama-3.2 und DeepSeek-R1 zeigen, dass InfoKV Attention-basierte Kompressionsmethoden konsistent in beiden Szenarien — langer Prefilling und Decoding — übertrifft.

Für Engineers ist der Ansatz relevant, weil er zeigt, dass Information-theoretische Signale (Unsicherheit) der reinen Struktur-Analyse (Attention) überlegen sind, wenn es darum geht, Token-Wichtigkeit vorauszusagen. Das reduziert Speicherverbrauch in praktischen Deployments ohne Trade-offs bei der Modellqualität.


Quelle: arxiv.org · Erschienen 24. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.

Share on: