KVarN: Varianzbasierte KV-Cache-Quantisierung reduziert Fehlerakkumulation

3. June 20263. June 2026
AI Models, Claude Code

KVarN reduziert durch verbesserte Token-Scale-Normalisierung die Fehlerakkumulation beim Quantisieren von KV-Caches auf 2-Bit-Genauigkeit und erreicht State-of-the-Art-Ergebnisse auf MATH500, AIME24 und HumanEval.

Share on:

KVarN: Varianzbasierte KV-Cache-Quantisierung reduziert Fehlerakkumulation

Lumi AI News

Rechtliches

Themenbereiche