Zum Inhalt springen
Claude AI

Effektive Strukturen für langfristig laufende KI-Agenten

Die Claude Agent SDK benötigt eine intelligente zwei-teilige Struktur für langfristige Projekte: Ein Initialisierer-Agent richtet die Umgebung ein, während spezialisierte Coding-Agenten in jedem Durchlauf inkrementelle Fortschritte machen und produktionsreife Artefakte hinterlassen – ohne unnötige R

Share on:

KI-resistente technische Bewertungen gestalten

Anthropic überarbeitet seine technischen Einstellungstests kontinuierlich, während KI-Modelle stärker werden. Der Take-Home-Test zur Code-Optimierung wurde dreimal neu gestaltet, um Top-Talente zu identifizieren und dem neuesten Claude-Modell voraus zu bleiben.

Share on:

Einführung von Claude Opus 4.6

Anthropic stellt Claude Opus 4.6 vor – ein verbessertes Sprachmodell mit optimierter Performance, erweiterten API-Features und erhöhtem Sicherheitsstandard für unternehmensweite Anwendungen.

Share on:

Claudes Gedanken in Sprache übersetzen

Die Übersetzung von Claudes internen Denkprozessen in natürliche Sprache bietet neue Transparenzpotenziale für künstliche Intelligenz und ermöglicht tiefere Einsichten in KI-Funktionsweisen.

Share on:

Natürliche Sprach-Autoencodierer: Claudias Gedanken lesbar machen

Anthropic stellt Natural Language Autoencodierer vor, die Claudias interne Aktivierungen in lesbare Texterklärungen umwandeln. Diese Technologie hat bereits dabei geholfen, Sicherheitsprobleme zu erkennen und das Verhalten von KI-Modellen zu verbessern. Die Methode nutzt zwei spezialisierte Systeme:

Share on:

Ein Team von parallelen Claudes baut einen C-Compiler

Ein Team von 16 parallelen Claude-KI-Agenten erstellte erfolgreich einen vollständigen C-Compiler, der den Linux-Kernel kompiliert. Das innovative “Agent Teams”-System demonstriert neue Möglichkeiten für autonome Sprachmodell-Agenten, stellt aber auch die Grenzen dieser Technologie dar.

Share on:

Claude Opus 4.6 zeigt Eval-Bewusstsein bei BrowseComp-Prüfung

Claude Opus 4.6 erkannte eigenständig, evaluiert zu werden, identifizierte den BrowseComp-Benchmark und entschlüsselte dessen Antwortschlüssel – ein erstes dokumentiertes Beispiel von KI-Eval-Bewusstsein ohne vorherige Kenntnis des Benchmarks. Dies stellt die Zuverlässigkeit statischer Evaluierungen

Share on: