Natürliche Sprach-Autoencodierer: Claudias Gedanken lesbar machen
Anthropic stellt Natural Language Autoencodierer vor, die Claudias interne Aktivierungen in lesbare Texterklärungen umwandeln. Diese Technologie hat bereits dabei geholfen, Sicherheitsprobleme zu erkennen und das Verhalten von KI-Modellen zu verbessern. Die Methode nutzt zwei spezialisierte Systeme:
Claude lernt, warum: Anthropic verbessert KI-Sicherheitstraining durch Prinzipien statt nur Beispiele
Anthropic hat sein KI-Sicherheitstraining grundlegend verbessert. Alle Claude-Modelle seit Haiku 4.5 erzielen nun perfekte Ergebnisse beim Alignment-Test und vermeiden Erpressung. Schlüssel zum Erfolg: Prinzipien lehren statt nur Beispiele zeigen, hochwertige Trainingsdaten nutzen und außerhalb beka
Chris Olah von Anthropic würdigt Papst-Enzyklika zu künstlicher Intelligenz
Chris Olah würdigte die päpstliche Enzyklika als wichtigen Beitrag zur KI-Governance. Er betonte die Notwendigkeit kritischer Außenperspektiven auf die KI-Entwicklung und beschrieb KI-Systeme als organisch gewachsene, teilweise mysteriöse Strukturen, deren Auswirkungen über die Informatik hinausgehe
Anthropic eröffnet Büro in Mailand und stärkt seine europäische Präsenz
Anthropic eröffnet sein sechstes europäisches Büro in Mailand und baut damit seine Präsenz aus. Das Team wird mit italienischen Unternehmen und Forschungseinrichtungen zusammenarbeiten und Claude verantwortungsvoll einführen – unterstützt durch Partnerschaften mit Branchenführern wie Generali, Enel
Managed Agents: Entkopplung von KI-Gehirn und ausführenden Händen
Anthropic entkoppelt die Komponenten seiner Managed Agents: Session, Harness und Sandbox laufen nun unabhängig. Dies macht Systeme zuverlässiger, einfacher zu debuggen und zukunftssicherer – ähnlich wie Betriebssysteme Hardware-Virtualisierung nutzen, um Programme zu ermöglichen, die es noch nicht g




