Die neue API ermöglicht es, Safeguards granular an jedem Punkt in Multi-Turn-Agent-Schleifen anzuwenden und basierend auf numerischen Scores eigene Schwellwerte sowie Aktionen (Block, Bypass, Retry) zu definieren.
Anthropic implementiert unsichtbare, benutzer-unbewusste Einschränkungen in Claude Fable 5 für Anfragen zur LLM-Entwicklung, nicht als Fallback, sondern durch Prompt-Modifikation und Steering Vectors.
Fable 5 setzt neue Benchmarks in Software-Engineering und Knowledge-Work durch längere autonome Laufzeiten, während Mythos 5 Cybersecurity-Fähigkeiten ohne Sicherheitsbeschränkungen bietet.
Anthropic bietet mit Fable 5 eine Mythos-Variante mit Sicherheitsfiltern zur öffentlichen Nutzung an, während Project-Glasswing-Teilnehmer Zugang zu weniger beschränktem Claude Mythos 5 erhalten, begleitet von neuen Bundesregeln zur Kontrolle von Frontier-KI-Modellen.