Steerbarkeit von Sprachmodellen lässt sich früh vorhersagen

15. June 202615. June 2026
AI Models, Claude AI

Ein trainierbarer Klassifizier prognostiziert anhand früher Hidden States mit 0,7 Macro-F1-Score, ob Activation Steering erfolgreich sein wird, ohne komplette Generierungen durchlaufen zu müssen.

Share on:

Steerbarkeit von Sprachmodellen lässt sich früh vorhersagen

Lumi AI News

Rechtliches

Themenbereiche