Pealegi: Isegi GPT-4.5 tuvastatakse kontekstisõltuvate turvalisuspoliitika puhul kriitilisi reeglistiku konfiguratsioone täielikult ainult 54% lihtsatest, 35% keskmiste ja 13% keerukate juhtudest.

Teadlased on välja töötanud SafePyramidi, punkte 1000 mitmeosaliste vestlustsenaariumi ja 3000 rakenduspõhisele turvalisuspoliitikale, et testida, kui hästi keelemudelid ja guardrailid tuvastavad ebaturvalisi vastastikusi toiminguid vastavalt kasutaja määratud poliitikale. Tulemused näitavad märkimisväärseid puuduseid.

SafePyramid koosneb 1000 mitmeringilisest vestlustsenaariumi üle 10 valdkonna, millele on määratud 3000 rakenduspõhist turvalisuspoliitika. Kokku sisaldab punkt 61 699 erinevat loomulikul keelel põhinevat reeglit. Stsenaariumid on struktureeritud kolme raskusastme järgi: L0 testib üksikute reeglite mõistmist, L1 hindab loogilist järeldamist reegli sõltuvuste üle, ja L2 nõuab kohasust täiesti uutele, kontekstis määratletud poliitika raamistikele.

Share on:

SafePyramid: Benchmark näitab LLM-Guardrailide nõrkusi kontekstisõltuval juhistes

Lumi AI News

Õiguslik

Teemavaldkonnad