Üldjoontes: Jailbreak’ide kavatsused jätavad mõõdetavad entroopiaallkirjad LLM-ide vahekihtidesse, mis on staatiliste keskmiste väärtustega võrreldes usaldusväärsemat.
Teadlased on välja töötanud meetodi, et tuvastada Large Language Modelite jailbreak’i rünnakuid, analüüsides ennustava entroopia muutusi keskmisel võrgu kihtidel. Signaal ei keskendu sisend- ega väljundkihile, vaid avaldub modellisisese kujutamise struktureeritud ebakindlusmustreis.
Jailbreak’i rünnakud ületavad LLM-ide turvalisuse treeningut eriti koostatud vihjete abil, mis esitavad väljakutseid poliitikavastaste vastuste saamiseks. Senised kaitseabinõud keskenduvad sisend- või väljundkihile. Uurimistöö uurib, kuidas ja kus kahjulikud kavatsused modelli sisemistes kujutamistes kodeeritakse.