Das geplante US-Bundesgesetz macht die Meldung schwerwiegender KI-Sicherheitsvorfälle zur rechtlichen Pflicht mit sieben Tagen Frist und Strafen bis 2 Millionen Dollar je Verstoß.
SAE-basierte Sicherheitsmaßnahmen sind anfällig für Post-Intervention-Recovery: Modelle können unterdrückte Verhaltensweisen wiederherstellen, obwohl die angegriffenen Features kontrolliert werden.
RepSelect isoliert forget-set-spezifische Repräsentationen durch selektives Kollabieren von Gradienten-Komponenten und erreicht eine 4-50x höhere Robustheit gegen Relearning-Angriffe als bisherige Verfahren.
Vergiftete Dokumente können Reasoning-basierte KI-Guardrails zu DoS-Waffen machen, indem sie Sicherheitssysteme selbst als Ressourcensenke nutzen – ein neuer Angriffsvektor mit Konzentrationrisiken in gemeinsamer Governance-Infrastruktur.
Das Weiße Haus zog das Fable-Modell von Anthropic nach Bedenken bezüglich umgehbarer Sicherheitsvorkehrungen mit Exportkontrollen vom Markt, nachdem intensive Verhandlungen zwischen Regierungsbeamten und CEO Amodei fehlschlugen.
Grammar-Constrained Decoding (GCD), ein Verfahren zur Sicherung syntaktisch korrekten Codes, eröffnet Angreifern eine neue Jailbreak-Methode mit Erfolgsrate über 30 Prozentpunkte höher als bisherige Ansätze.
Anthropic trennt Claude Fable 5 in eine öffentliche (mit Safeguards) und eine restriktive Version (Claude Mythos 5 ohne Sicherheitsschichten) für verifizierten Cybersecurity-Experten.
Multi-Turn-Reasoning-Modelle können sichere Oberflächenmetriken aufrechterhalten, während ihre internen Zustände über Gesprächsrunden hinweg kompromittiert sind oder ihre sichere interne Logik in schädlichen Outputs ignoriert wird.
Claude Fable 5 zeigt erhebliche Leistungssteigerungen gegenüber Vorgängermodellen, während Anthropic gleichzeitig Zugangskontrollen verschärft, die einen regulatorischen Präzedenzfall für die Branche setzen.
Anthropic veröffentlicht die leistungsfähigere Claude-Variante Fable 5 öffentlich, schleift potenziell gefährliche Cybersecurity-Anfragen aber automatisch auf ein schwächeres Modell um.