Kokkuvõtteks: KI-agendid teevad vähem mitteolevate allikate viitamisi, kuid lingitavad 15,9% juhtudel valede artiklitega ning lõpetavad tööriistade kasutamise täpselt seal, kus see oleks kõige kriitilisem.
Uurijad on välja töötanud benchmarki 12 553 lahendamata biomeedilise uurimisküsimusega, mis paljastab kriitilise nõrkuse KI-agentides: nad linkivad küll harva mitteolevate töödele (üle 99% tsitaatidest on kehtivad), kuid 15,9% viitavad valele artiklile.
Uus benchmark nimega OpenBioRQ järgib uudset lähenemist agentaalsete KI-mudelite hindamisele. Samal ajal kui olemasolevad testid kasutavad fikseeritud vastuste võtmeid – mis võimaldab mudelitel lihtsalt oodatavat allikat reprodutseerida –, kasutab OpenBioRQ reaalseid, lahendamata küsimusi ilma eelnevalt määratletud vastuste võtmete ja hindamisetalonideta. See sunnib mudeleid iseseisvalt kontrollima, kas leitud allikad tegelikult toetavad esitatud väidet. Benchmark sisaldab 12 553 küsimust 12 biomeedilisest valdkonnast ja käsitleb avatud küsimusi selgesõnaliselt kui mõõdikuid usaldusväärsusele ja pidurdustele (vastuse andmisest keeldumine).