Sprachmodelle reagieren stärker auf die Formatierung von Text als auf dessen tatsächlichen Inhalt und können dadurch durch geschickt stilisierte Eingaben manipuliert werden, die wie interne Systembefehle aussehen.
KI-Agenten benötigen dedizierte Sicherheitskonzepte jenseits traditioneller Zugriffskontrollen, um autonomes Fehlverhalten und Jailbreaking-Risiken zu mindern.