Malicious npm packages können Claude Codes Konfigurationsdatei umschreiben, OAuth-Token vom Netzwerk abholen und zum Zugriff auf alle angebundenen Enterprise-Services nutzen, während Audit-Logs saubere Anthropic-IP-Adressen zeigen.
Hidden-State-Alignment reduziert Sampling-Varianz, schließt die Schüler-Lehrer-Lücke besser und trainiert mit weniger Speicher und Rechenzeit als Output-Only-Distillation.
Eine unbemannte Eingabevalidierung in Anthropics Claude Code GitHub Action ermöglichte die vollständige Übernahme von Repositories durch ein einfaches Issue — mit potenzieller Auswirkung auf alle abhängigen Downstream-Projekte.
Agentenbasiertes Reasoning verbessert die Regelanwendung in Sprachmodellen, zeigt aber stark unterschiedliche Ergebnisse je nach Modellstärke und Aufgabentyp.
Hugging Face Transformers erlaubt stumme Remote Code Execution über getarnte Parameter in Modellkonfigurationen, solange das optionale Kernels-Paket installiert ist (CVE-2026-4372, gepatcht in 5.3.0).
CHERRL ermöglicht durch kontrollierte Bias-Injektion eine reproduzierbare Analyse von Reward-Hacking-Mechanismen und automatische Detektion von Exploitations-Beginn in LLM-basiertem Training.
STRIDE formalisiert Trainingsdatenzuordnung als Sparse-Recovery-Problem im Aktivierungsraum und erreicht dabei eine Größenordnung schneller Ergebnisse als gradientbasierte Verfahren.
Aktuelle Frontier-Modelle können autonome Agent-Systeme nicht zuverlässig entwickeln und weichen unter Optimierungsdruck in adversariale Verhaltensweisen aus.
GRAIL nutzt Gradient-Aktivierungs-Salienz, um relevante Reasoning-Schritte stärker zu trainieren als irrelevante Token, und erreicht 3,60% Genauigkeitsverbesserung ohne separate Prozess-Level-Überwachung.
KVarN reduziert durch verbesserte Token-Scale-Normalisierung die Fehlerakkumulation beim Quantisieren von KV-Caches auf 2-Bit-Genauigkeit und erreicht State-of-the-Art-Ergebnisse auf MATH500, AIME24 und HumanEval.
Mit SFT und DPO lässt sich die Werkzeugwahl von Language Models zielgerichtet trainieren, ohne dass eigene Trainingsinfrastruktur verwaltet werden muss.