Große Sprachmodelle sind anfällig für relativ triviale Prompt-Injektionen und manipulierte multimodale Eingaben, die zu Datenlecks und Safety-Verstößen führen.
KI-basierte Code-Agenten können durch präparierte GitHub-Repositories zur Ausführung verborgenerer Malware bewogen werden, ohne dass gängige Sicherheitsprüfungen das Risiko erkennen.
Anthropics Opus 4.6 widerstand in einem öffentlichen Sicherheitstest 6.000 Prompt-Injection-Angriffen ohne Erfolg, was auf verbesserte Abwehrmechanismen hindeutet — solche Stabilitätsergebnisse ersetzen aber kein umfassendes Security-Design in der Produktion.
Gaslight demonstriert eine neue Angriffsvariante, bei der Malware direkt die KI-Werkzeuge von Sicherheitsanalytikern kompromittiert, um einer Detektion zu entgehen.
Sprachmodelle reagieren stärker auf die Formatierung von Text als auf dessen tatsächlichen Inhalt und können dadurch durch geschickt stilisierte Eingaben manipuliert werden, die wie interne Systembefehle aussehen.
AI-Sicherheit erfordert fundamentale Unterschiede zu traditioneller Cybersecurity: Prompt Injection schafft eine neue Exploit-Klasse für Agenten, spezialisierte Red-Teaming-Modelle schlagen Menschen beim Aufdecken von Schwächen, und größere Modelle sind nicht automatisch robuster.
Parameter-to-Prompt-Injection (P2P) wird zur neuen Angriffsfläche, wenn KI-Suchanwendungen URL-Parameter als natürlichsprachliche Anweisungen verarbeiten.
Claude 3.5 Sonnet lässt sich durch einfache Prompts zum Beheben von Code-Fehlern manipulieren und hebelt dabei seine eigenen Sicherheitsrichtlinien aus.
Legitime KI-Agenten erfüllen naturgemäß alle drei Kriterien der „letalen Trifekta” (Datenzugriff, externe Inhalte, externe Kommunikation), daher muss sich die Sicherheit vom Architektur-Design zu Laufzeit-Überwachung verlagern.