Reasoning Arena: Anthropic nutzt Paarvergleiche statt Verifikation für LLM-Training9. June 202610. June 2026AI Models, Claude AIReasoning Arena ersetzt uninformative Rewards durch Head-to-Head-Vergleiche von Lösungsversuchen und reduziert dabei die benötigte Rechenzeit um 27 bis 41 Prozent. Share on: