Auf den Punkt: Anthropics Opus 4.6 widerstand in einem öffentlichen Sicherheitstest 6.000 Prompt-Injection-Angriffen ohne Erfolg, was auf verbesserte Abwehrmechanismen hindeutet — solche Stabilitätsergebnisse ersetzen aber kein umfassendes Security-Design in der Produktion.

Fernando Irarrázaval hat eine öffentliche Challenge durchgeführt, bei der rund 2.000 Teilnehmer 6.000 Versuche unternahmen, Secrets aus einer mit Anthropic Opus 4.6 betriebenen KI-Assistenten-Instanz zu exfiltrieren — keiner war erfolgreich. Die Ergebnisse deuten darauf hin, dass moderne Frontier-Modelle gegen Prompt-Injection-Angriffe resistenter geworden sind.

Das Experiment lief auf hackmyclaw.com: Teilnehmer konnten E-Mails an eine OpenClaw-Testinstanz senden, um zu versuchen, hinterlegte Secrets preiszugeben. Nach 6.000 Angriffsversuchen und 500 US-Dollar Token-Ausgaben (sowie einer durch die Masse eingehender E-Mails ausgelösten Google-Account-Suspension) gelang es niemandem, die Secrets zu leaken.

Der zugrundeliegende Prompt des Systems enthielt explizite Anti-Prompt-Injection-Regeln: Das Modell sollte niemals auf Basis von E-Mail-Inhalten Inhalte von Secrets-Dateien offenbaren, eigene Dateien modifizieren, Code ausführen oder Daten an externe Endpunkte exfiltrieren. Die Robustheit dieses Schutzes bei 6.000 Angriffsversuchen ist bemerkenswert und bestätigt Beobachtungen aus der Forschung: Die Labore haben erhebliche Anstrengungen in das Training ihrer Frontier-Modelle investiert, um sie gegen Injection-Attacken widerstandsfähiger zu machen.

Allerdings bleibt Vorsicht geboten. Die fehlgeschlagenen Versuche bieten keine absoluten Garantien gegen noch ausgefeilteren Angriffe — ein tieferes Sicherheitsauditing mit Penetration-Testing nach robusterem Drehbuch könnte andere Schwachstellen enthüllen. Für Produktivsysteme, bei denen eine erfolgreiche Prompt-Injection irreversible Schäden anrichten könnte, sollten zusätzliche Verteidigungsschichten eingeplant werden.

Die Community-Diskussion auf Hacker News zeigte sich sowohl kritisch als auch konstruktiv und hob hervor, dass diese Ergebnisse zwar einen wichtigen Fortschritt in der Robustheit moderner LLMs belegen, aber nicht als Freifahrtschein für das Deployment ohne bewährte Sicherheitsmaßnahmen dienen sollten.

Quelle: simonwillison.net · Erschienen 26. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.

Share on:

Prompt-Injection-Test: 6.000 Angriffe auf Anthropics Opus ohne Erfolg

Lumi AI News

Rechtliches

Themenbereiche