LoopCoder-v2 mit zwei Schleifen verbessert Code-Reasoning-Benchmarks erheblich (SWE-bench Verified: 43,0 → 64,4 Punkte), während drei oder mehr Schleifen durch wachsende Positionsfehler kontraproduktiv sind.
AWS hat mit P-EAGLE eine parallelisierte Variante von Speculative Decoding entwickelt, die Draft-Tokens in einem Forward-Pass statt sequenziell erzeugt und damit Inferenzdurchsatz auf SageMaker AI um bis zu 1,69x erhöht.
LCLMs komprimieren KV-Caches durch Encoder-Decoder-Architektur bis 1:16 effizienter als bisherige Verfahren und reduzieren dabei Peak-Memory-Auslastung und Verarbeitungszeit.
Encoder-Decoder-Kompressoren mit adaptiver Expansion verbessern KV-Cache-Kompressionsmethoden in Geschwindigkeit und Speichereffizienz, ohne nennenswerte Qualitätsverluste.
Ein CPU-basierter RL-Controller optimiert adaptives Sampling beim Test-Time Scaling und reduziert Rechenaufwand sowie Latenz gegenüber heuristischen Verfahren.