OpenBioRQ zeigt, dass agentenbasierte KI-Modelle bei komplexen biomedizinischen Forschungsfragen bei etwa 40% versagen und gerade bei schwierigen Aufgaben ihre Werkzeuge nicht mehr einsetzen, obwohl diese am wichtigsten wären.
OpenAI fordert verpflichtende Bundesevaluierungen vor KI-Freigabe, lehnt aber Regulierungsgenehmigungen ab und setzt damit auf einen kontrollierten Mittelweg zwischen freiwilligen Zusagen und strenger staatlicher Kontrolle.
Trump schafft einen Kompromiss zwischen KI-Innovation und Cybersecurity, indem er freiwillige nationale Sicherheitsüberprüfungen für fortgeschrittene KI-Modelle vorsieht, ohne dabei Lizensierungen oder Vorabgenehmigungen zu erzwingen.
Aktuelle Frontier-Modelle erreichen auf dem neuen ITBench-AA-Benchmark zur Bewertung agentischer IT-Fähigkeiten nicht einmal 50 Prozent Erfolgsquote, was einen erheblichen Gap zwischen Modellfähigkeiten und Produktionsreife bei autonomen IT-Aufgaben aufzeigt.