Dedizierte Explorations-Modelle (4B–30B Parameter) können Code-Suche in Repositories effizienter handhaben als allgemeine Solver-Modelle und reduzieren dabei Context-Pollution erheblich.
Eine Verkettung von drei Schwachstellen in LiteLLM ermöglicht die Übernahme des Proxy-Servers und damit den Zugriff auf alle verwalteten API-Schlüssel von über 100 KI-Modellanbietern.
Vergiftete Dokumente können Reasoning-basierte KI-Guardrails zu DoS-Waffen machen, indem sie Sicherheitssysteme selbst als Ressourcensenke nutzen – ein neuer Angriffsvektor mit Konzentrationrisiken in gemeinsamer Governance-Infrastruktur.
Angreifer können Reasoning-Guardrails von KI-Agenten durch gezielt manipulierte Eingaben zu einer Ressourcenerschöpfung führen, ohne die Sicherheitsmechanismen selbst zu umgehen.
HarnessX automatisiert Zusammenbau und Anpassung von Agent-Harnesses aus Ausführungsspuren und erreicht durchschnittlich +14,5 % Leistungssteigerung ohne Modellskalierung.
Ein neuer Benchmark ermöglicht es, die exakte Stelle zu identifizieren, wo medizinische KI-Modelle Halluzinationen produzieren, und gezielt durch Trace-Supervised Fine-Tuning gegenzusteuern.
Eine Verkettung von Schwachstellen in LangGraph ermöglicht Remote Code Execution in selbstgehosteten KI-Agent-Deployments und erfordert sofortige Patches.
MSA reduziert die Aufmerksamkeitsberechnung für Million-Token-Kontexte um das 28,4-Fache durch blockweise Sparse-Selektion und erreichbare praktische Speedups durch Co-Design von Algorithmus und GPU-Kernel.
Agent-EvalKit automatisiert die Evaluierung von KI-Agenten durch strukturierte Test-Case-Generierung, Observability-Instrumentierung und kombinierte Code- sowie LLM-basierte Metriken direkt in der Entwicklungsumgebung.