Steerbarkeit von Sprachmodellen lässt sich früh vorhersagen15. June 202615. June 2026AI Models, Claude AIEin trainierbarer Klassifizier prognostiziert anhand früher Hidden States mit 0,7 Macro-F1-Score, ob Activation Steering erfolgreich sein wird, ohne komplette Generierungen durchlaufen zu müssen. Share on: