STARE nutzt Überraschungsmetriken und selektive Advantage-Reweighting, um Policy-Entropie über lange Trainingssequenzen stabil zu halten und dabei Genauigkeit um 4–8 % zu verbessern.
GLM-5.2 rangiert als führendes offenes Sprachmodell auf dem Artificial-Analysis-Index mit einem Score von 51 und belegt Platz 2 im Code-Arena-WebDev-Leaderboard, produziert aber signifikant mehr Output-Tokens als Konkurrenzmodelle.
ZPPO integriert Lehrermodelle als Prompt-Komponenten statt als Gradienten und verbessert damit die Generalisierung beim Wissenstransfer auf kleine Modelle.
Die neue API ermöglicht es, Safeguards granular an jedem Punkt in Multi-Turn-Agent-Schleifen anzuwenden und basierend auf numerischen Scores eigene Schwellwerte sowie Aktionen (Block, Bypass, Retry) zu definieren.
AWS hat mit P-EAGLE eine parallelisierte Variante von Speculative Decoding entwickelt, die Draft-Tokens in einem Forward-Pass statt sequenziell erzeugt und damit Inferenzdurchsatz auf SageMaker AI um bis zu 1,69x erhöht.
Tangram statisch vorhersagbare Speicherbudgets pro Attention-Head, um Fragmentierung und Latenzverschleppung zu eliminieren, die dynamische KV-Cache-Kompression verursacht.
Dedizierte Explorations-Modelle (4B–30B Parameter) können Code-Suche in Repositories effizienter handhaben als allgemeine Solver-Modelle und reduzieren dabei Context-Pollution erheblich.
HarnessX automatisiert Zusammenbau und Anpassung von Agent-Harnesses aus Ausführungsspuren und erreicht durchschnittlich +14,5 % Leistungssteigerung ohne Modellskalierung.
Agent-EvalKit automatisiert die Evaluierung von KI-Agenten durch strukturierte Test-Case-Generierung, Observability-Instrumentierung und kombinierte Code- sowie LLM-basierte Metriken direkt in der Entwicklungsumgebung.
Die Ausrichtung von Router-Zeilen an den mathematischen Hauptrichtungen ihrer zugeordneten Expert-Matrizen verbessert die Effizienz und Stabilität von Mixture-of-Experts-Modellen.
Das Benchmark-Framework Claw-SWE-Bench zeigt, dass Adapter-Design für Code-Agenten entscheidend ist: mit minimalem Adapter erreicht OpenClaw 19,1% Pass@1, mit vollständigem Adapter 73,4%.