Auf den Punkt: Aktuelle KI-Agenten scheitern bei komplexen visuellen Aufgaben in professionellen Anwendungen deutlich häufiger als bisherige Benchmarks suggerieren.

Forscher haben ein Evaluierungs-Benchmark namens GauntletBench vorgestellt, das agentische KI-Systeme in anspruchsvollen, realitätsnahen Szenarien prüft. Die Ergebnisse offenbaren eine erhebliche Leistungslücke: Spitzensysteme erreichen nur 19,1 % Erfolgsquote, während Menschen über 80 % schaffen.

GauntletBench bewertet agentische Systeme auf Basis von 100 Vision-intensiven Aufgaben verteilt auf fünf professionelle Anwendungen: Video Editor, Workflow Builder, 3D Modeller, Flight Analyser und Circuit Designer. Jede Anwendung umfasst 20 Aufgaben. Das Benchmark konzentriert sich dabei auf drei bisher unterbelichtete Fähigkeiten: zeitliche Wahrnehmung (Temporal Perception), Verständnis von grafischen Elementen (Graphical Understanding) und 3D-Reasoning.

Die Benchmark-Infrastruktur selbst ist modular aufgebaut: eine mit offenen und geschlossenen Agenten-Frameworks kompatible Umgebung, eine kontrollierte webbasierte Anwendung, eine strukturierte Aufgabensammlung und ein automatisiertes Evaluierungs-Engine mit diversen Metriken. Dies ermöglicht belastbare und vergleichbare Messungen über verschiedene Systeme hinweg.

Die empirischen Ergebnisse divergieren deutlich von Erwartungen aus vorherigen, oft gesättigten Benchmarks: Der beste getestete Agent erreichte nur 19,1 % Erfolgsquote. Zum Vergleich lösten nicht-fachkundige menschliche Annotierer über 80 % der Aufgaben korrekt. Dies zeigt, dass die Aufgaben zwar für Menschen bewältigbar sind, aktuelle agentic systems aber fundamental limitiert bleiben.

Für CTOs ist das relevant: Es unterstreicht, dass Agenten-Deployments in komplexen realen Szenarien mit multi-modale Anforderungen (visuelle Erfassung, räumliches Denken, zeitliche Logik) heute noch erhebliche manuellen Oversight und Fallback-Prozesse benötigen. Die Gap zwischen Marketing und Realität ist größer als bisherige Benchmarks vermuten ließen.

Quelle: arxiv.org · Erschienen 24. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.

Share on:

GauntletBench: Neue Messlatte zeigt Grenzen von KI-Agenten auf

Lumi AI News

Rechtliches

Themenbereiche