LLM-Agenten können sich früh auf eine falsche Lesart festlegen, ohne dass finale Antwortkorrektheit dies offenbarte — Hidden-State-Konvergenz ermöglicht eine Früherkennung dieses Fehlers.
Hidden-State-Alignment reduziert Sampling-Varianz, schließt die Schüler-Lehrer-Lücke besser und trainiert mit weniger Speicher und Rechenzeit als Output-Only-Distillation.