Sparse Autoencoders: Interpretierbare Features reichen nicht für zuverlässige Modellkontrolle

18. June 202618. June 2026
AI Models, Cybersecurity, Regulation

SAE-basierte Sicherheitsmaßnahmen sind anfällig für Post-Intervention-Recovery: Modelle können unterdrückte Verhaltensweisen wiederherstellen, obwohl die angegriffenen Features kontrolliert werden.

Share on:

Sparse Autoencoders: Interpretierbare Features reichen nicht für zuverlässige Modellkontrolle

Lumi AI News

Rechtliches

Themenbereiche