NEUReinforcement Learning mit Metakognition hilft LLMs, Unsicherheit korrekt auszudrücken1. July 20261. July 2026AI Models, Claude AIEin neues RL-Verfahren (RLMF) trainiert Sprachmodelle darauf, ihre Leistung selbst korrekt zu bewerten und diese Einschätzung in nuancierten Unsicherheitsausdrücken widerzuspiegeln – statt überconfident zu halluzinieren. Share on: