NEUSafePyramid: Benchmark zeigt Schwächen von LLM-Guardrails bei kontextabhängigen Richtlinien

30. June 202630. June 2026
AI Models, Claude AI, Cybersecurity

Selbst GPT-4.5 erkennt bei kontextabhängigen Sicherheitsrichtlinien vollständig kritische Regelkonfigurationen nur in 54% der einfachen, 35% der mittleren und 13% der komplexen Fälle.

Share on:

GauntletBench: Neue Messlatte zeigt Grenzen von KI-Agenten auf

26. June 202626. June 2026
AI Models, Claude Code, Claude Cowork

Aktuelle KI-Agenten scheitern bei komplexen visuellen Aufgaben in professionellen Anwendungen deutlich häufiger als bisherige Benchmarks suggerieren.

Share on:

OpenBioRQ: Benchmark für Agentic-KI-Modelle in biomedizinischen Forschungsfragen

26. June 202626. June 2026
AI Models, Claude AI, Claude Code

KI-Agenten geben weniger oft nicht existierende Quellen an, verlinken aber in 15,9% der Fälle auf falsche Papers, und stoppen bei schwierigen Fragen die Tool-Nutzung genau dort, wo diese am kritischsten wäre.

Share on:

DailyReport: Neuer Benchmark für die Evaluierung von Such-Agenten

23. June 202623. June 2026
AI Models, Claude AI

DailyReport ist ein neuer Open-Source-Benchmark, der Such-Agenten anhand alltagsnaher, mehrdimensionaler Suchaufgaben bewertet und Optimierungspotenziale in bestehenden Systemen aufdeckt.

Share on:

GateMem: Benchmark für Speicherverwaltung in Multi-Agent-Systemen

22. June 202622. June 2026
AI Models, Cybersecurity

Kein bestehendes Speicher-Agent-System erfüllt gleichzeitig die Anforderungen an Nützlichkeit, Zugriffskontrolle und zuverlässiges Löschen in Multi-User-Umgebungen.

Share on:

ClinHallu: Benchmark zur Diagnose von Halluzinationen in medizinischen KI-Modellen

15. June 202615. June 2026
AI Models, Claude Code

Ein neuer Benchmark ermöglicht es, die exakte Stelle zu identifizieren, wo medizinische KI-Modelle Halluzinationen produzieren, und gezielt durch Trace-Supervised Fine-Tuning gegenzusteuern.

Share on:

Claw-SWE-Bench: Benchmark für KI-Agenten bei Code-Aufgaben

11. June 202611. June 2026
AI Models, Claude Code

Das Benchmark-Framework Claw-SWE-Bench zeigt, dass Adapter-Design für Code-Agenten entscheidend ist: mit minimalem Adapter erreicht OpenClaw 19,1% Pass@1, mit vollständigem Adapter 73,4%.

Share on:

BenSyc: Benchmark für Schmeichelei in bengalischen Sprachmodellen

10. June 202610. June 2026
AI Models

Sprachmodelle erreichen bei der Unterscheidung zwischen empathischer Unterstützung und übertriebener Bestätigung in bengalischen Gesprächen nur 61–62 Macro-F1, was erhebliche Risiken für sozial sensible Anwendungen signalisiert.

Share on:

Workflow-GYM: Benchmark offenbart Grenzen von KI-Agenten bei komplexen GUI-Aufgaben

10. June 202610. June 2026
AI Models, Claude Code, Claude Cowork

Aktuelle KI-Agenten können langfristige, professionelle GUI-Workflows nicht zuverlässig ausführen und scheitern an Konsistenzerhalt, Fehlerausbreitung und domänenspezifischem Verständnis.

Share on:

NEUSafePyramid: Benchmark zeigt Schwächen von LLM-Guardrails bei kontextabhängigen Richtlinien

GauntletBench: Neue Messlatte zeigt Grenzen von KI-Agenten auf

OpenBioRQ: Benchmark für Agentic-KI-Modelle in biomedizinischen Forschungsfragen

DailyReport: Neuer Benchmark für die Evaluierung von Such-Agenten

GateMem: Benchmark für Speicherverwaltung in Multi-Agent-Systemen

ClinHallu: Benchmark zur Diagnose von Halluzinationen in medizinischen KI-Modellen

Claw-SWE-Bench: Benchmark für KI-Agenten bei Code-Aufgaben

BenSyc: Benchmark für Schmeichelei in bengalischen Sprachmodellen

Workflow-GYM: Benchmark offenbart Grenzen von KI-Agenten bei komplexen GUI-Aufgaben

Lumi AI News

Rechtliches

Themenbereiche