Zum Inhalt springen

Verfrühte Commitment-Bildung in LLM-Agenten erkannt und gemessen

Auf den Punkt: LLM-Agenten können sich früh auf eine falsche Lesart festlegen, ohne dass finale Antwortkorrektheit dies offenbarte — Hidden-State-Konvergenz ermöglicht eine Früherkennung dieses Fehlers.

Forscher haben einen Fehler-Mechanismus in Long-Horizon-Agenten identifiziert, bei dem Sprachmodelle sich früh auf eine Interpretation festlegen und dann die restliche Laufzeit mit deren Rechtfertigung verbringen. Ein neues Messverfahren auf Basis von versteckten Zustandsvektoren ermöglicht es, diese verfrühte Festlegung zu diagnostizieren, bevor die finale Antwort gegeben wird.

Das Phänomen „Premature Commitment” beschreibt, wie LLM-Agenten bei Reasoning-Aufgaben bereits nach wenigen Schritten eine stabile Interpretation etablieren und davon nicht mehr abweichen, auch wenn neue Evidenz das widersprechen würde. Klassische Erfolgsmessungen (Final-Answer-Scoring) erfassen diesen stille Fehler nicht, weil sie nur das Endergebnis betrachten, nicht den zugrundeliegenden Denkprozess.

Die Studie misst dieses Phänomen über „representational commitment” — die Konvergenz von versteckten Zuständen (Hidden States) über mehrere Durchläufe hinweg an einem festen Reasoning-Schritt. Auf Llama-3.1-70B im ReAct-Setup mit HotpotQA erreicht die Hidden-State-Ähnlichkeit bei Schritt 4 eine Korrelation von r = −0,35 mit nachgelagerter Konsistenz (partiell r = −0,45). Das Signal reproduziert sich auf Qwen-2.5-72B und Phi-3-14B sowie auf StrategyQA (r = −0,83). Entscheidend: Das Maß bildet ab, ob sich ein Agent festgelegt hat, nicht ob er korrekt ist — committed-wrong und committed-correct Fragen unterscheiden sich in den Aktivierungsmustern nicht signifikant.

Ein Runtime-Monitor detektiert inkonsistente Trajektorien aus Hidden States mit bis zu 0,97 AUROC (0,85–0,88 unter strengerer Evaluationssplittung). Eine Prompting-Intervention reduziert die Verhaltensvarianz um 28% gegenüber Token-matched Control, während die Genauigkeit statistisch unverändert bleibt. Ein Experiment zur Lenkung von Self-Consistency-Ressourcen mittels dieses Signals zeigt nur bescheidene Verbesserungen auf schwierigeren Benchmarks und wird von einfacheren Output-basierten Baselines erreicht.

Die Arbeit charakterisiert damit einen spezifischen, verborgen ablaufenden Fehlermechanismus mit klar definierten Grenzen — nicht als allgemeines Hebel zur Genauigkeitssteigerung, sondern als Diagnoseverfahren für interne Prozessdefekte bei Long-Horizon Reasoning.


Quelle: arxiv.org · Erschienen 21. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.

Share on: