ICALens: Interpretability Method for Language Models Without Training Additional Autoencoders

11. June 2026
AI Models, Claude AI

ICA-based analysis enables rapid exploration of interpretable directions in language models without expensive training of additional autoencoders.

Share on:

Linear Probes for Deception Detection in LLMs Show Critical Robustness Gaps

3. June 2026
AI Models, Cybersecurity

Linear probes for deception detection in LLMs function reliably only on training data, not under stylistic variations—but style augmentation can restore robustness.

Share on:

ICALens: Interpretability Method for Language Models Without Training Additional Autoencoders

Linear Probes for Deception Detection in LLMs Show Critical Robustness Gaps

Lumi AI News

Legal

Topics