Auf den Punkt: KI-Agenten geben weniger oft nicht existierende Quellen an, verlinken aber in 15,9% der Fälle auf falsche Papers, und stoppen bei schwierigen Fragen die Tool-Nutzung genau dort, wo diese am kritischsten wäre.
Forscher haben einen Benchmark mit 12.553 ungelösten biomedizinischen Forschungsfragen entwickelt, der eine kritische Schwachstelle in KI-Agenten offenlegt: Sie verlinken zwar selten auf nicht existierende Arbeiten (über 99% der Zitate sind gültig), aber 15,9% führen auf die falschen Paper hin.
Das neue Benchmark namens OpenBioRQ verfolgt einen neuartigen Ansatz zur Evaluierung von Agentic-KI-Modellen. Während bestehende Tests mit festen Antwortschlüsseln arbeiten – was Modellen ermöglicht, die erwartete Quelle einfach zu reproduzieren –, nutzt OpenBioRQ echte, ungelöste Fragen ohne vordefinierte Antwortschlüssel. Dies zwingt die Modelle, eigenständig zu verifizieren, dass gefundene Quellen die gestellte Behauptung tatsächlich unterstützen. Der Benchmark umfasst 12.553 Fragen aus 12 biomedizinischen Domänen und behandelt offene Fragen explizit als Probe für Zuverlässigkeit und Abstinenzfähigkeit (Enthaltung von Antworten).
Bei der Evaluierung von drei unabhängigen Frontier-Agenten – Gemini-3-Pro, Opus-4.7 und GPT-5.5 – zeigt sich erhebliche Varianz: Die Modelle lösen zwischen 29 und 60 Prozent der schwierigsten Fragen. Selbst das beste Modell lässt 33–40 Prozent ungelöst, was zeigt, dass der Benchmark nicht gesättigt ist und tatsächliche Leistungsunterschiede zwischen Capability-Tiers differenziert erfasst.
Ein zentrales Problem der getesteten Agenten ist das sogenannte „Agentic Collapse”: Bei besonders schwierigen Fragen stellen die Modelle die Nutzung ihrer Tools ein. Der Forschung zufolge ist dieses Phänomen gravierend: Bei dem dafür anfälligsten Modell ändert ein vollständiges Blockieren des Tool-Zugangs die Testresultate kaum – die Tools hören exakt dort auf zu helfen, wo sie am dringendsten nötig wären. Dies deutet darauf hin, dass Agenten bei schwierigen Aufgaben nicht mehr sinnvoll zwischen Tool-Nutzung und direkter Antwortgabe abwägen.
Zur Verbesserung der Evaluierungszuverlässigkeit führte der Forscher einen standardisierten Checklistenansatz ein, der die Übereinstimmung zwischen Bewertern (Spearman-Korrelation) von 0,35 auf 0,82 anhebt. OpenBioRQ stellt damit das erste biomedizinische Benchmark dar, das Agentic-Szenarien mit mehrfachen Tool-Aufrufen mit ungelösten Fragen ohne Antwortschlüssel kombiniert und dabei Schwierigkeit empirisch durch tatsächliche Modellversagen definiert – nicht durch subjektive Schwierigkeitslabels.
Quelle: arxiv.org · Erschienen 19. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.