Auf den Punkt: Ein neues RL-Verfahren (RLMF) trainiert Sprachmodelle darauf, ihre Leistung selbst korrekt zu bewerten und diese Einschätzung in nuancierten Unsicherheitsausdrücken widerzuspiegeln – statt überconfident zu halluzinieren.
Forscher haben ein neues Verfahren entwickelt, das Sprachmodelle durch Reinforcement Learning mit metakognitiven Rückmeldungen trainiert, um ihre eigene Unsicherheit zuverlässig auszudrücken statt halluzinierter Aussagen oder falscher Konfidenz-Signale zu produzieren.
Das Problem liegt in einer grundlegenden Schwäche aktueller Sprachmodelle: Sie äußern sich häufig mit hoher Sicherheit zu Themen, bei denen sie eigentlich unsicher sind, können ihre Wissensgrenzen nicht erkennen und geben ihre innere Unsicherheit falsch wieder. Dies untergräbt die Zuverlässigkeit und Vertrauenswürdigkeit der Systeme erheblich.
Die Forscher setzen beim Konzept der Metakognition an – der Fähigkeit eines Systems, seine eigenen kognitiven Prozesse zu überwachen und zu regulieren. Sie führen zwei neue Mechanismen ein: Erstens „Reinforcement Learning mit metakognitiven Rückmeldungen” (RLMF), das während der Preference-Optimierung Completion-Rankings basierend auf der Qualität der Selbstbewertung des Modells verfeinert. Zweitens nutzen sie metakognitive Datenauswahl, um trainingsrelevante Beispiele automatisch zu identifizieren – mit besseren Ergebnissen als Standard-Active-Learning-Ansätze.
Das Verfahren wird auf das Problem der „faithful calibration” angewandt: Modelle sollen ihre ausgedrückten Konfidenz-Werte mit ihrer tatsächlichen inneren Unsicherheit abgleichen. Der Ansatz erfolgt in zwei Phasen: Zunächst werden die Konfidenz-Scores der Modelle durch RLMF kalibriert, anschließend werden diese in natürlichsprachige, kontextabhängige Unsicherheitsausdrücke übersetzt.
Umfangreiche Experimente zeigen, dass RLMF state-of-the-art Ergebnisse bei der Kalibrierung über diverse Aufgaben hinweg erreicht, während die Genauigkeit erhalten bleibt. Das Verfahren übertrifft Standard-RL-Methoden um bis zu 63 Prozent und verbessert die Fähigkeit von Modellen, ihre eigenen Leistungsgrenzen zu erkennen und auszudrücken. Dies positioniert RLMF als vielversprechenden Ansatz zur Verbesserung der Alignment-Eigenschaften von Sprachmodellen.
Quelle: arxiv.org · Erschienen 29. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.2.