Tiivustatud: Anthropic Opus 4.6 vastas avalikus turbekatsetusse 6000 prompt-injection rünnakule ilma eduta, mis näitab täiustatud kaittemehhanisme — siiski ei asenda sellised stabiilsuse tulemused terviklikku turvakujundust tootmises.

Fernando Irarrázaval korraldas avaliku väljakutse, kus umbes 2000 osalejat tegid 6000 katset salasõnad Anthropic Opus 4.6-ga töötavast tehisintellekti abistandi instantsist välja tooma — ükski ei õnnestunud. Tulemused viitavad sellele, et kaasaegsed piiripealse tasandi mudelid on prompt-injection rünnakute vastu vastupidavamad muutunud.

Eksperiment käis saidil hackmyclaw.com: osalejad saatsid e-kirju OpenClaw-i testinstantsile, et proovida salasõnu välja andma panna. Pärast 6000 rünnakakatseet ja 500 USA dollari suuruseid märkide kulusid (samuti massis saabuvate e-kirjade tõttu tekitatud Google’i konto peatamist) ei õnnestunud kellelgi salasõnad välja andma.

Süsteemi aluseks olev viip sisaldas eksplitsiitseid anti-prompt-injection reegleid: mudel ei tohtinud kunagi e-kirja sisust lähtuvalt salasõnade failide sisust midagi paljastada, oma faile muuta, koodi käivitada või andmeid välistesse otspunktidesse exfiltreerida. Selle kaitse robustsus 6000 rünnakakatsete puhul on märkimisväärsusväärne ja kinnitab uurimistulemusi: labid on panustanud suuri jõupingutusi oma piiripealse tasandi mudelite koolitamisesse, et need oleksid injection-rünnakute vastu vastupidavamad.

Siiski jääb ettevaatus kohasiseks. Ebaõnnestunud katsed ei pakkude absoluutseid garantiisid veel keerulisemate rünnakute vastu — sügavam turbeväljaanne koos penetratsioonitestiga robustsema stsenaariumi järgi võiks paljastada teisi nõrkusi. Tootmissüsteemide puhul, kus edukas prompt-injection võis tekitada pöördumatuid kahjusid, tuleks planeerida täiendavad kaitseebimad.

Kogukonna arutelu Hacker News’is näitas nii kriitilisust kui ka konstruktiivsust ja rõhutas, et kuigi need tulemused tõestavad kaasaegsete suurte keelemudellite vastupidavuses olulist edusammu, ei tohiks neid käsitleda vabandusena juurutamiseks ilma tõestatud turvameetmeteta.

Allikas: simonwillison.net · Avaldatud 26. juuni 2026
Lumi AI News — tehisintellekti abil kurateeritud vastavalt EU AI Acti artiklile 50. Parafraasimine ja klassifikatsioon Lumi News Pipeline v1.7.1 poolt.

Share on:

Prompt-injection test: 6000 rünnakut Anthropic Opus vastu ilma eduta

Lumi AI News

Õiguslik

Teemavaldkonnad