Lineare Sonden zur Täuschungserkennung in LLMs zeigen kritische Robustheitslücken

3. June 20263. June 2026
AI Models, Cybersecurity

Lineare Sonden zur Täuschungserkennung in LLMs funktionieren nur auf Trainingsdaten reliabel, nicht aber bei stilistischen Variationen — Style-Augmentation kann die Robustheit aber wiederherstellen.

Share on:

Lineare Sonden zur Täuschungserkennung in LLMs zeigen kritische Robustheitslücken

Lumi AI News

Rechtliches

Themenbereiche