Skip to content

OpenBioRQ: agendiõhuline biomeditsiinitaotluste võrdlusmõõt

Lühidalt: OpenBioRQ näitab, et agentpõhised KI-mudelid ebaõnnestuvad umbes 40% juures keeruliste biomeditsiinitaotluste puhul ja just raskete ülesannete puhul jätavad vahendite kasutamise, kuigi need oleksid kõige olulisemad.

Uurijad on avaldanud uue võrdlusmõõdu andmekogumiku 12 553 lahendamata biomeditsiinitaotlusega, et paljastada KI-agentide nõrkused allikate kontrollimisel. Andmekogumik OpenBioRQ paljastab, et umbes 15,9% keeletavandajate poolt loodud tsitaatidest seotuvad küll olemasolevate artiklitega, kuid need ei toeta tegelikult väidetavat väidet.

Keskne probleem, mida OpenBioRQ käsitleb: kuigi praegused agentpõhised mudelid tekitavad kehtivaid tsitaate üle 99% juures, sisaldab umbes 15,9% neist kriitilised vea — link viitab valele artiklile. Olemasolevad võrdlusmõõdud ei jäädvusta seda vigade režiimi, sest mudelid võivad eelmääratud vastustega küsimuste puhul lihtsalt reprodutseerida oodatud allikat, selle asemel et iseseisva katsena kontrollida, kas see tegelikult väidet toetab.

Share on: