Auf den Punkt: OpenBioRQ zeigt, dass agentenbasierte KI-Modelle bei komplexen biomedizinischen Forschungsfragen bei etwa 40% versagen und gerade bei schwierigen Aufgaben ihre Werkzeuge nicht mehr einsetzen, obwohl diese am wichtigsten wären.
Forscher haben ein neues Benchmark-Dataset mit 12.553 ungelösten biomedizinischen Forschungsfragen veröffentlicht, um die Schwächen von KI-Agenten bei der Quellenverifikation offenzulegen. Das Dataset OpenBioRQ deckt auf, dass etwa 15,9% der von Sprachmodellen generierten Zitate zwar auf existierende Papers verlinken, diese aber die behauptete Aussage nicht tatsächlich stützen.
Das zentrale Problem, das OpenBioRQ adressiert: Während aktuelle agentenbasierte Modelle zu über 99% gültige Zitate generieren, enthält etwa 15,9% davon einen kritischen Fehler — der Link führt zum falschen Paper. Bestehende Benchmarks erfassen diesen Fehlermodus nicht, weil Modelle bei Fragen mit vordefinierter Antwort einfach die erwartete Quelle reproduzieren können, statt unabhängig zu verifizieren, ob diese die Behauptung tatsächlich stützt.
Das Dataset umfasst 12.553 offene Forschungsfragen aus 12 biomedizinischen Domänen und wurde spezifisch als agentenbasiertes Benchmark konzipiert: Modelle müssen mehrere Tool-Aufrufe hintereinander tätigen, erhalten aber keine Antwort-Keys. Stattdessen wird die Korrektheit gegen echte Nachweise aus der Forschungsliteratur validiert. Die Schwierigkeitsstufe ist nicht subjektiv labeled, sondern empirisch ankert auf Fragen, die drei quelloffene Referenzmodelle nicht beantworten können.
Bei diesem schwierigsten Subset zeigt sich ein großer Leistungsunterschied: Modelle derselben Reihe wie die Schwierigkeitsanker lösen nur etwa 17% der Fragen, während drei unabhängige Frontier-Agenten (Gemini-3-Pro, Opus-4.7, GPT-5.5) eine breite Spanne von 29-60% erreichen. Das Benchmark ist damit nicht saturiert — selbst die besten Agenten lassen 33-40% der Fragen ungelöst.
Besonders problematisch ist ein Phänomen namens „agentic collapse” auf schwierigen Fragen: Agenten stoppen die Nutzung ihrer Tools genau dort, wo diese am meisten nötig wären. Bei dem kollaps-anfälligsten Modell ändert sich die Punktzahl kaum, wenn die Tool-Nutzung ganz deaktiviert wird. Strukturierte Validierung durch eine einheitliche Pro-Frage-Checkliste verbessert die Konsistenz zwischen Evaluatoren von Spearman 0,35 auf 0,82.
Quelle: arxiv.org · Erschienen 19. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.