Auf den Punkt: KI-Agenten übertreffen Baseline auf nur knapp 18 Prozent echter wissenschaftlicher Aufgaben, weil sie Probleme eher neu rahmen als wirklich innovativ lösen.

Forscher haben NatureBench entwickelt, einen Benchmark mit 90 Aufgaben aus Nature-Publikationen, um zu prüfen, ob KI-Agenten in der Lage sind, echte wissenschaftliche Probleme nicht nur nachzubilden, sondern zu lösen. Die bisherige Evaluierung zeigt: Das stärkste Modell übertrifft den bisherigen Stand auf nur 17,8 Prozent der Aufgaben.

NatureBench basiert auf NatureGym, einer automatisierten Pipeline, die aus wissenschaftlichen Originalarbeiten standardisierte, containerisierte Umgebungen pro Aufgabe konstruiert. Das adressiert das bisher ungelöste Problem der Umgebungs-Fragmentierung, das die Glaubwürdigkeit früherer Agent-on-Research-Benchmarks gefährdet hat.

In der Evaluation von zehn Frontier-Agent-Konfigurationen unter striktem Verzicht auf Web-Suchmöglichkeiten zeigt sich: Das beste Modell übertrifft die bisherige State-of-the-Art (SOTA) unter dem g>0.1-Kriterium auf nur 17,8 Prozent der 90 Aufgaben. Die Analyse der erfolgreichen Lösungswege offenbart, dass Agenten primär durch methodologische Übersetzung Erfolg haben – sie konvertieren wissenschaftliche Probleme in vertraute überwachte Vorhersage-Aufgaben, nicht durch echte wissenschaftliche Erfindungen.

Fehlgeschlagene Lösungen entstehen überwiegend durch falsche Methodenwahl und unzureichende Rechenbudgets, nicht durch Aufgabenmissverstehen. Für Ingenieure relevant: Die Erkenntnisse zeigen, wo aktuelle Coding-Agenten systematisch scheitern und wo ihre Stärken liegen – essentiell, um realistische Erwartungen an KI-gestützte Problemlösung in F&E-Kontexten zu setzen.

Die Forscher stellen Benchmark, NatureGym-Pipeline und ein öffentliches Leaderboard mit reproduzierbaren Ergebnissen zur Verfügung. Code ist auf GitHub verfügbar.

Quelle: arxiv.org · Erschienen 22. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.

Share on:

NatureBench: Wie weit Coding-Agenten in wissenschaftlichen Aufgaben wirklich kommen

Lumi AI News

Rechtliches

Themenbereiche