SAE-basierte Sicherheitsmaßnahmen sind anfällig für Post-Intervention-Recovery: Modelle können unterdrückte Verhaltensweisen wiederherstellen, obwohl die angegriffenen Features kontrolliert werden.
ICA-basierte Analyse ermöglicht schnelle Exploration interpretierbarer Richtungen in Sprachmodellen ohne aufwendiges Training zusätzlicher Autoencodern.