Selbst GPT-4.5 erkennt bei kontextabhängigen Sicherheitsrichtlinien vollständig kritische Regelkonfigurationen nur in 54% der einfachen, 35% der mittleren und 13% der komplexen Fälle.
KI-Agenten geben weniger oft nicht existierende Quellen an, verlinken aber in 15,9% der Fälle auf falsche Papers, und stoppen bei schwierigen Fragen die Tool-Nutzung genau dort, wo diese am kritischsten wäre.
DailyReport ist ein neuer Open-Source-Benchmark, der Such-Agenten anhand alltagsnaher, mehrdimensionaler Suchaufgaben bewertet und Optimierungspotenziale in bestehenden Systemen aufdeckt.
Kein bestehendes Speicher-Agent-System erfüllt gleichzeitig die Anforderungen an Nützlichkeit, Zugriffskontrolle und zuverlässiges Löschen in Multi-User-Umgebungen.
Ein neuer Benchmark ermöglicht es, die exakte Stelle zu identifizieren, wo medizinische KI-Modelle Halluzinationen produzieren, und gezielt durch Trace-Supervised Fine-Tuning gegenzusteuern.
Das Benchmark-Framework Claw-SWE-Bench zeigt, dass Adapter-Design für Code-Agenten entscheidend ist: mit minimalem Adapter erreicht OpenClaw 19,1% Pass@1, mit vollständigem Adapter 73,4%.
Sprachmodelle erreichen bei der Unterscheidung zwischen empathischer Unterstützung und übertriebener Bestätigung in bengalischen Gesprächen nur 61–62 Macro-F1, was erhebliche Risiken für sozial sensible Anwendungen signalisiert.
Aktuelle KI-Agenten können langfristige, professionelle GUI-Workflows nicht zuverlässig ausführen und scheitern an Konsistenzerhalt, Fehlerausbreitung und domänenspezifischem Verständnis.