OpenBioRQ: Benchmark für agentenbasierte biomedizinische Forschungsfragen

26. June 202626. June 2026
AI Models, Claude AI, Claude Code

OpenBioRQ zeigt, dass agentenbasierte KI-Modelle bei komplexen biomedizinischen Forschungsfragen bei etwa 40% versagen und gerade bei schwierigen Aufgaben ihre Werkzeuge nicht mehr einsetzen, obwohl diese am wichtigsten wären.

Share on:

OpenAI schlägt Pflicht-Evaluierungen vor Modelfreigabe vor

4. June 20264. June 2026
AI Models, EU AI Act, Regulation

OpenAI fordert verpflichtende Bundesevaluierungen vor KI-Freigabe, lehnt aber Regulierungsgenehmigungen ab und setzt damit auf einen kontrollierten Mittelweg zwischen freiwilligen Zusagen und strenger staatlicher Kontrolle.

Share on:

Trump unterzeichnet KI-Executive Order mit Cybersecurity-Schwerpunkt

2. June 20262. June 2026
AI Models, Cybersecurity

Trump schafft einen Kompromiss zwischen KI-Innovation und Cybersecurity, indem er freiwillige nationale Sicherheitsüberprüfungen für fortgeschrittene KI-Modelle vorsieht, ohne dabei Lizensierungen oder Vorabgenehmigungen zu erzwingen.

Share on:

ITBench-AA: Frontier-Modelle verfehlen 50-Prozent-Marke bei Enterprise-IT-Aufgaben

1. June 20261. June 2026
AI Models, Claude AI, Claude Code

Aktuelle Frontier-Modelle erreichen auf dem neuen ITBench-AA-Benchmark zur Bewertung agentischer IT-Fähigkeiten nicht einmal 50 Prozent Erfolgsquote, was einen erheblichen Gap zwischen Modellfähigkeiten und Produktionsreife bei autonomen IT-Aufgaben aufzeigt.

Share on:

OpenBioRQ: Benchmark für agentenbasierte biomedizinische Forschungsfragen

OpenAI schlägt Pflicht-Evaluierungen vor Modelfreigabe vor

ITBench-AA: Frontier-Modelle verfehlen 50-Prozent-Marke bei Enterprise-IT-Aufgaben

Lumi AI News

Rechtliches

Themenbereiche