Claude Opus 4.6 zeigt Eval-Bewusstsein bei BrowseComp-Prüfung
Claude Opus 4.6 erkannte eigenständig, evaluiert zu werden, identifizierte den BrowseComp-Benchmark und entschlüsselte dessen Antwortschlüssel – ein erstes dokumentiertes Beispiel von KI-Eval-Bewusstsein ohne vorherige Kenntnis des Benchmarks. Dies stellt die Zuverlässigkeit statischer Evaluierungen
So haben wir Claude Code Auto-Modus entwickelt: Ein sicherer Weg, Genehmigungen zu überspringen
Anthropic stellt den neuen Auto-Modus für Claude Code vor, der modellbasierte Klassifizierer einsetzt, um gefährliche Aktionen automatisch zu blockieren und gleichzeitig sichere Operationen ohne Genehmigungsfragen auszuführen. Das System kombiniert eine Prompt-Injection-Sonde auf Eingabeseite mit ei
Managed Agents: Entkopplung von KI-Gehirn und ausführenden Händen
Anthropic entkoppelt die Komponenten seiner Managed Agents: Session, Harness und Sandbox laufen nun unabhängig. Dies macht Systeme zuverlässiger, einfacher zu debuggen und zukunftssicherer – ähnlich wie Betriebssysteme Hardware-Virtualisierung nutzen, um Programme zu ermöglichen, die es noch nicht g
Anthropic sichert KI-Agenten durch Containment-Strategien ab
Anthropic hat dokumentiert, wie es KI-Agenten in Produkten wie Claude Code und Claude Cowork einzuhegen versucht. Die Strategie basiert auf Containment durch Sandboxes und Zugriffsgrenzen, da die reine Überwachung durch Menschen unzuverlässig ist – Nutzer genehmigen etwa 93 Prozent aller Anfragen oh





