Isegi GPT-4.5 tuvastatakse kontekstisõltuvate turvalisuspoliitika puhul kriitilisi reeglistiku konfiguratsioone täielikult ainult 54% lihtsatest, 35% keskmiste ja 13% keerukate juhtudest.
KI-agendid teevad vähem mitteolevate allikate viitamisi, kuid lingitavad 15,9% juhtudel valede artiklitega ning lõpetavad tööriistade kasutamise täpselt seal, kus see oleks kõige kriitilisem.