Sparse Autoencoders: Interpretierbare Features reichen nicht für zuverlässige Modellkontrolle18. June 202618. June 2026AI Models, Cybersecurity, RegulationSAE-basierte Sicherheitsmaßnahmen sind anfällig für Post-Intervention-Recovery: Modelle können unterdrückte Verhaltensweisen wiederherstellen, obwohl die angegriffenen Features kontrolliert werden. Share on: