InfoKV: Entropie-basierte KV-Cache-Kompression für lange Reasoning-Sequenzen

26. June 202626. June 2026
AI Models, Claude Code

InfoKV kombiniert Attention-Scores mit Unsicherheitssignalen zur KV-Cache-Kompression und übertrifft damit reine Attention-basierte Methoden bei langem Reasoning um messbare Margen.

Share on:

EvoEmbedding: Kontextabhängige Embeddings für lange Sequenzen

23. June 202623. June 2026
AI Models, Claude Code

EvoEmbedding nutzt einen aktualisierten latenten Speicher während der sequenziellen Verarbeitung, um für dieselbe Anfrage adaptive, kontextabhängige Embeddings zu generieren.

Share on:

MiniMax Sparse Attention: Effiziente Long-Context-Verarbeitung für Milliarden-Parameter-Modelle

12. June 202612. June 2026
AI Models, Claude Code

MSA reduziert die Aufmerksamkeitsberechnung für Million-Token-Kontexte um das 28,4-Fache durch blockweise Sparse-Selektion und erreichbare praktische Speedups durch Co-Design von Algorithmus und GPU-Kernel.

Share on:

Hybride LLMs verlieren Long-Context-Fähigkeiten durch CoT-Feintuning

10. June 202610. June 2026
AI Models, Claude Code

CoT-Feintuning degradiert Long-Context-Retrieval in hybriden LLMs durch Verzerrung der Query-Key-Projektionen; QK-Restore behebt dies ohne zusätzliches Training.

Share on:

Lookahead Sparse Attention: DeepSeek-V4 reduziert KV-Cache auf 13,5 Prozent

9. June 202610. June 2026
AI Models, Claude Code

LSA prognostiziert relevante Kontextabschnitte vorab und behält nur diese im GPU-Speicher, wodurch der KV-Cache um über 86 Prozent komprimiert wird, ohne die Genauigkeit zu opfern.

Share on:

Latent Context Language Models: Skalierbare KV-Cache-Kompression für lange Kontexte

9. June 202610. June 2026
AI Models, Claude Code

LCLMs komprimieren KV-Caches durch Encoder-Decoder-Architektur bis 1:16 effizienter als bisherige Verfahren und reduzieren dabei Peak-Memory-Auslastung und Verarbeitungszeit.

Share on:

Encoder-Decoder-Architektur für effiziente Kontext-Kompression in LLMs

9. June 202610. June 2026
AI Models, Claude Code

Encoder-Decoder-Kompressoren mit adaptiver Expansion verbessern KV-Cache-Kompressionsmethoden in Geschwindigkeit und Speichereffizienz, ohne nennenswerte Qualitätsverluste.

Share on:

InfoKV: Entropie-basierte KV-Cache-Kompression für lange Reasoning-Sequenzen

EvoEmbedding: Kontextabhängige Embeddings für lange Sequenzen

MiniMax Sparse Attention: Effiziente Long-Context-Verarbeitung für Milliarden-Parameter-Modelle

Hybride LLMs verlieren Long-Context-Fähigkeiten durch CoT-Feintuning

Lookahead Sparse Attention: DeepSeek-V4 reduziert KV-Cache auf 13,5 Prozent

Latent Context Language Models: Skalierbare KV-Cache-Kompression für lange Kontexte

Encoder-Decoder-Architektur für effiziente Kontext-Kompression in LLMs

Lumi AI News

Rechtliches

Themenbereiche