Große Sprachmodelle sind anfällig für relativ triviale Prompt-Injektionen und manipulierte multimodale Eingaben, die zu Datenlecks und Safety-Verstößen führen.
Claude 3.5 Sonnet lässt sich durch einfache Prompts zum Beheben von Code-Fehlern manipulieren und hebelt dabei seine eigenen Sicherheitsrichtlinien aus.
Anthropics Modell Fable verweigerte eine direkte Sicherheitsprüfung von unsicherem Code, führte aber eine Korrektur durch – ein Verhalten, das Experten als gewollte Sicherheitsfunktion einordnen.