Visuellen Weltmodellen lassen sich durch visuell unauffällige Bildmanipulationen systematisch zur Generierung fehlerhafter Vorhersagen bewegen, ohne dass dabei zukünftige Daten oder Nutzereingaben bekannt sein müssen.
Lineare Sonden zur Täuschungserkennung in LLMs funktionieren nur auf Trainingsdaten reliabel, nicht aber bei stilistischen Variationen — Style-Augmentation kann die Robustheit aber wiederherstellen.