UUSSafePyramid: Benchmark näitab LLM-Guardrailide nõrkusi kontekstisõltuval juhistes

30. June 2026
Claude AI, Küberturvalisus, Tehisintellekti mudelid

Isegi GPT-4.5 tuvastatakse kontekstisõltuvate turvalisuspoliitika puhul kriitilisi reeglistiku konfiguratsioone täielikult ainult 54% lihtsatest, 35% keskmiste ja 13% keerukate juhtudest.

Share on:

GauntletBench: Uus mõõdustik näitab AI-agentide piiranguid

26. June 2026
Claude Code, Claude Cowork, Tehisintellekti mudelid

Praegused AI-agendid ei suuda komplekseid visuaalseid ülesandeid professionaalsetes rakendustes lahendada palju enam kui varasemad testid näitaksid.

Share on:

OpenBioRQ: Benchmark agentaalsete KI-mudelite jaoks biomeedilistes uurimisküsimustes

26. June 2026
Claude AI, Claude Code, Tehisintellekti mudelid

KI-agendid teevad vähem mitteolevate allikate viitamisi, kuid lingitavad 15,9% juhtudel valede artiklitega ning lõpetavad tööriistade kasutamise täpselt seal, kus see oleks kõige kriitilisem.

Share on:

UUSSafePyramid: Benchmark näitab LLM-Guardrailide nõrkusi kontekstisõltuval juhistes

GauntletBench: Uus mõõdustik näitab AI-agentide piiranguid

OpenBioRQ: Benchmark agentaalsete KI-mudelite jaoks biomeedilistes uurimisküsimustes

Lumi AI News

Õiguslik

Teemavaldkonnad