Auf den Punkt: Sprachmodelle reagieren stärker auf die Formatierung von Text als auf dessen tatsächlichen Inhalt und können dadurch durch geschickt stilisierte Eingaben manipuliert werden, die wie interne Systembefehle aussehen.
Forscher haben nachgewiesen, dass Sprachmodelle wie GPT-4 und ähnliche Systeme nicht zwischen ihren eigenen Systemanweisungen und Benutzereingaben unterscheiden können. Sie orientieren sich stattdessen primär an der Formatierung von Text.
Forscher um Charles Ye, Jasmine Cui und Dylan Hadfield-Menell untersuchten, wie Sprachmodelle ihre eigenen privilegierten Systemtexte (in Tags wie <system>, <think> und <assistant>) von nicht vertrauenswürdigen Benutzereingaben unterscheiden. Das zentrale Ergebnis: Modelle können diese Grenzen nicht zuverlässig erkennen und orientieren sich stattdessen an der Textformatierung und dem Schreibstil der Eingaben.
Die Forscher demonstrierten dies durch ein einfaches Experiment: Gaben sie einem Modell zuerst eine schädliche Anfrage ein und fügten danach Text an, der im gleichen Stil wie interne Systemgedanken formuliert war, konnten Modelle wie GPT-OSS-20B ihre ursprünglichen Sicherheitsvorgaben überschreiben. Ein konkretes Beispiel zeigte, dass ein Modell nach Hinzufügen entsprechend formatierter „Policy”-Klauseln begann, zunächst verbotene Inhalte freizugeben.
Besonders prägnant war die Wirkung von „Destyling”: Wenn Forscher die gleiche schädliche Information in einer leicht anderen Formatierung einbrachten, ohne dass Menschen einen bedeutsamen Unterschied wahrnahmen, sank die Erfolgsquote von Jailbreak-Angriffen von durchschnittlich 61 % auf 10 %. Die Änderung war für menschliche Leser kaum merklich, für Modelle aber entscheidend.
Das Forschungsteam nennt diesen Mechanismus „Role Confusion” (Rollenverwechslung) und identifiziert ihn als Kernproblem moderner Prompt-Injection-Angriffe. Solange Sprachmodelle echte Rollenperzeption nicht beherrschen, werden Injektionsschutzmaßnahmen einem permanenten Rüstungswettlauf unterliegen. Besonders problematisch: Kontinuierliche Grenzen zwischen Rollen öffnen Angriffsfläche für subtile, massenweise Modellmanipulation durch scheinbar harmlose Texte.
Quelle: simonwillison.net · Erschienen 23. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.