Zum Inhalt springen

Jailbreak-Erkennung durch Entropiedynamiken in LLM-Zwischenschichten

Auf den Punkt: Jailbreak-Intenten hinterlassen messbare Entropie-Signaturen in Zwischenschichten von LLMs, die verlässlicher sind als statische Durchschnittswerte.

Forscher haben eine Methode entwickelt, um Jailbreak-Angriffe auf Large Language Models durch die Analyse von Vorhersage-Entropie in mittleren Netzwerkschichten zu erkennen. Das Signal konzentriert sich nicht auf Input oder Output, sondern offenbart sich in strukturierten Unsicherheitsmustern der internen Modellrepräsentationen.

Jailbreak-Angriffe umgehen Sicherheitstraining von LLMs durch gezielt formulierte Prompts, die Policy-verletzende Antworten provozieren. Bisherige Abwehrmaßnahmen konzentrieren sich auf die Eingabe- oder Ausgabeschicht. Die Forschungsarbeit untersucht, wo und wie schädliche Absichten in den inneren Repräsentationen des Modells kodiert sind.

Die Analyse nutzt Token-Level-Vorhersage-Entropie über die Netzwerkschichten hinweg mit dem Logit-Lens-Verfahren. Das zentrale Ergebnis: Statische Aggregatstatistiken der Prompt-Level-Entropie (Mittelwert, Varianz) haben geringe Diskriminationskraft. Dagegen zeigen Features, die die Entropie-Entwicklung über Token-Positionen hinweg erfassen – etwa monotone rangbasierte Trend-Scores – wesentlich höhere Aussagekraft. Entscheidend ist die Schichtverteilung: Das Signal konzentriert sich in mittleren Netzwerkschichten und degradiert in der finalen Schicht. Dies deutet darauf hin, dass jailbreak-relevante Strukturen eher in mittleren Repräsentationen als am Output-Head lokalisiert sind.

Getestet wurde die Methode architekturübergreifend auf mehreren Modellen (Llama, Qwen, Gemma) und verschiedenen Adversarial-Benchmarks ohne zusätzliches Training. Die Entropiedynamiken liefern konsistente Trennung zwischen legitimen und jailbroken Prompts. Dies klärt sowohl, welche Entropie-abgeleiteten Features schädliche Absicht kodieren, als auch an welcher Stelle im Netzwerk dieses Signal am stärksten auftritt.


Quelle: arxiv.org · Erschienen 22. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.

Share on: