Sparse Autoencoders: Interpretierbare Features reichen nicht für zuverlässige Modellkontrolle

18. June 202618. June 2026
AI Models, Cybersecurity, Regulation

SAE-basierte Sicherheitsmaßnahmen sind anfällig für Post-Intervention-Recovery: Modelle können unterdrückte Verhaltensweisen wiederherstellen, obwohl die angegriffenen Features kontrolliert werden.

Share on:

Steerbarkeit von Sprachmodellen lässt sich früh vorhersagen

15. June 202615. June 2026
AI Models, Claude AI

Ein trainierbarer Klassifizier prognostiziert anhand früher Hidden States mit 0,7 Macro-F1-Score, ob Activation Steering erfolgreich sein wird, ohne komplette Generierungen durchlaufen zu müssen.

Share on:

STRIDE: Trainingsdateneinfluss in LLMs via Sparse Recovery nachverfolgen

4. June 20264. June 2026
AI Models, Claude Code

STRIDE formalisiert Trainingsdatenzuordnung als Sparse-Recovery-Problem im Aktivierungsraum und erreicht dabei eine Größenordnung schneller Ergebnisse als gradientbasierte Verfahren.

Share on:

Claudes Gedanken in Sprache übersetzen

31. May 20261. June 2026
AI Models, Claude AI

Die Übersetzung von Claudes internen Denkprozessen in natürliche Sprache bietet neue Transparenzpotenziale für künstliche Intelligenz und ermöglicht tiefere Einsichten in KI-Funktionsweisen.

Share on:

Natürliche Sprach-Autoencodierer: Claudias Gedanken lesbar machen

31. May 20261. June 2026
AI Models, Claude AI

Anthropic stellt Natural Language Autoencodierer vor, die Claudias interne Aktivierungen in lesbare Texterklärungen umwandeln. Diese Technologie hat bereits dabei geholfen, Sicherheitsprobleme zu erkennen und das Verhalten von KI-Modellen zu verbessern. Die Methode nutzt zwei spezialisierte Systeme:

Share on:

Sparse Autoencoders: Interpretierbare Features reichen nicht für zuverlässige Modellkontrolle

Steerbarkeit von Sprachmodellen lässt sich früh vorhersagen

STRIDE: Trainingsdateneinfluss in LLMs via Sparse Recovery nachverfolgen

Claudes Gedanken in Sprache übersetzen

Natürliche Sprach-Autoencodierer: Claudias Gedanken lesbar machen

Lumi AI News

Rechtliches

Themenbereiche

Sparse Autoencoders: Interpretierbare Features reichen nicht für zuverlässige Modellkontrolle

Steerbarkeit von Sprachmodellen lässt sich früh vorhersagen

STRIDE: Trainings­daten­einfluss in LLMs via Sparse Recovery nachverfolgen

Claudes Gedanken in Sprache übersetzen

Natürliche Sprach-Autoencodierer: Claudias Gedanken lesbar machen

Lumi AI News

Rechtliches

Themenbereiche

STRIDE: Trainingsdateneinfluss in LLMs via Sparse Recovery nachverfolgen