OpenBioRQ zeigt, dass agentenbasierte KI-Modelle bei komplexen biomedizinischen Forschungsfragen bei etwa 40% versagen und gerade bei schwierigen Aufgaben ihre Werkzeuge nicht mehr einsetzen, obwohl diese am wichtigsten wären.
Eine systematische Daten-Kurierungs-Pipeline ermöglicht es, Agentic-Modelle über vielfältige Aufgabentypen generalisierbar zu trainieren und dabei konkurrenzfähige oder bessere Ergebnisse zu erzielen als spezialisierte Modelle.