REVES: Iteratives Training für effizientere Test-Time-Skalierung bei LLMs

19. June 202619. June 2026
AI Models, Claude Code

REVES nutzt Zwischenschritte aus erfolgreichen Fehlerbehebungen als separate Trainingsdaten und erreicht damit bessere Leistung mit weniger Rechenaufwand als konventionelle Multi-Turn-Reinforcement-Learning-Methoden.

Share on:

KVarN: Varianzbasierte KV-Cache-Quantisierung reduziert Fehlerakkumulation

3. June 20263. June 2026
AI Models, Claude Code

KVarN reduziert durch verbesserte Token-Scale-Normalisierung die Fehlerakkumulation beim Quantisieren von KV-Caches auf 2-Bit-Genauigkeit und erreicht State-of-the-Art-Ergebnisse auf MATH500, AIME24 und HumanEval.

Share on:

RL-gesteuertes Sampling für Test-Time Scaling bei Large Language Models

3. June 20263. June 2026
AI Models, Claude Code

Ein CPU-basierter RL-Controller optimiert adaptives Sampling beim Test-Time Scaling und reduziert Rechenaufwand sowie Latenz gegenüber heuristischen Verfahren.

Share on:

REVES: Iteratives Training für effizientere Test-Time-Skalierung bei LLMs

KVarN: Varianzbasierte KV-Cache-Quantisierung reduziert Fehlerakkumulation

RL-gesteuertes Sampling für Test-Time Scaling bei Large Language Models

Lumi AI News

Rechtliches

Themenbereiche