Skip to content

GauntletBench: Uus mõõdustik näitab AI-agentide piiranguid

Tuumasisesõnaga: Praegused AI-agendid ei suuda komplekseid visuaalseid ülesandeid professionaalsetes rakendustes lahendada palju enam kui varasemad testid näitaksid.

Teadlased tutvustasid hindamise mõõdustikku nimega GauntletBench, mis testib agentiaalset AI-süsteeme nõudlike, reaalsele lähedaste stsenaariumite puhul. Tulemused paljastasid märkimisväärse jõudlusevahemiku: parimatest süsteemidest saavutasid ainult 19,1% edukust, samal ajal kui inimesed saavutavad üle 80%.

GauntletBench hindab agentiaalset süsteeme 100 nägemisintensiivsele ülesandele, mis jagunevad viiele professionaalsele rakendustele: Video Editor, Workflow Builder, 3D Modeller, Flight Analyser ja Circuit Designer. Iga rakendus sisaldab 20 ülesannet. Mõõdustik keskendub kolmele seni alakoormatud võimekusele: ajalisele tajule (Temporal Perception), graafiliste elementide mõistmisele (Graphical Understanding) ja 3D-arutlusele.

Mõõdustiku infrastruktuur on modulaarne: keskkond, mis ühildub avatud ja suletud agendi raamistikutega, kontrollitud veebipõhine rakendus, struktureeritud ülesannete kogu ja automatiseeritud hindamise mootor, millel on erinevad mõõdikud. See võimaldab usaldusväärseid ja võrreldavaid mõõtmisi erinevate süsteemide vahel.

Empiirilised tulemused erinevad oluliselt ootustest, mis põhinevad varasematel, sageli küllastunutel mõõdustikel: parim testitud agent saavutas ainult 19,1% edukust. Võrdlusena lahendab mitteekspertiisne inimlik märkija üle 80% ülesannetest õigesti. See näitab, et ülesanded on inimestele lahendatavad, kuid praegused agentiaalse süsteemid jäävad fundamentaalselt piiritletud.

CTO-de jaoks on see asjakohane: see rõhutab, et agendi paigaldused keerulistes reaalsetes stsenaariumites, millel on mitme- ja multimodaalsed nõuded (visuaalne tundmine, ruumiline arutlus, ajaline loogika), nõuavad tänaseni veel märkimisväärset käsitsi järelevalvet ja tagasisidestamise protsesse. Erinevus turunduse ja reaalsuse vahel on suurem kui varasemad testid arvasid.


Allikas: arxiv.org · Avaldatud 24. juuni 2026
Lumi AI News — AI-abil kurateeritud vastavalt EU AI Act 50. artiklile. Parafraas ja klassifikatsioon Lumi News Pipeline v1.7.1 abil.

Share on: