Skip to content

SafePyramid: Benchmark zeigt Schwächen von LLM-Guardrails bei kontextabhängigen Richtlinien

Auf den Punkt: Selbst GPT-4.5 erkennt bei kontextabhängigen Sicherheitsrichtlinien vollständig kritische Regelkonfigurationen nur in 54% der einfachen, 35% der mittleren und 13% der komplexen Fälle.

Forscher haben SafePyramid entwickelt, einen Benchmark mit 1.000 mehrteiligen Gesprächszenarien und 3.000 anwendungsspezifischen Sicherheitsrichtlinien, um zu testen, wie gut Sprachmodelle und Guardrails unsichere Interaktionen gemäß benutzerdefinierten Policies erkennen. Die Ergebnisse zeigen erhebliche Defizite.

SafePyramid besteht aus 1.000 Mehrrunden-Gesprächszenarien über 10 Domänen hinweg, denen 3.000 anwendungsspezifische Sicherheitsrichtlinien zugeordnet sind. Insgesamt enthält der Benchmark 61.699 unterschiedliche natürlichsprachliche Regeln. Die Szenarien werden nach drei Schwierigkeitsstufen strukturiert: L0 testet das Verständnis einzelner Regeln, L1 bewertet logisches Schließen über Regelabhängigkeiten, und L2 fordert die Anpassung an völlig neue, im Kontext definierte Policy-Frameworks.

Die Evaluierung umfasste zehn führende Sprachmodelle sowie fünf konfigurierbare Guardrail-Systeme. Das beste Ergebnis lieferte GPT-4.5: Es identifizierte auf L0 in 54,0% der Fälle alle verletzten Regeln korrekt, auf L1 nur noch 35,3% und auf L2 lediglich 12,9%. Diese Leistungsabfälle zeigen, dass selbst hochmoderne Modelle Schwierigkeiten haben, Regelabhängigkeiten zu verstehen und sich an novel Policy-Definitionen anzupassen.

Für CTOs bedeutet dies, dass derzeitige Guardrail-Systeme für unternehmenskritische Anwendungen nicht zuverlässig genug sind, wenn es darum geht, individuelle Sicherheitsrichtlinien durchzusetzen. Die Forscher betonen, dass stärkere Mechanismen erforderlich sind, die Policies konsistent ausführen, Regelabhängigkeiten auflösen und sich auf unbekannte Policy-Rahmenbedingungen übertragen lassen. Das Problem wird besonders akut bei mehrschichtigen Regelsetzen, wo Modelle komplexe Interaktionen zwischen unterschiedlichen Sicherheitsanforderungen nicht hinreichend berücksichtigen.


Quelle: arxiv.org · Erschienen 28. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.2.

Share on: