Workflow-GYM: Benchmark offenbart Grenzen von KI-Agenten bei komplexen GUI-Aufgaben10. June 202610. June 2026AI Models, Claude Code, Claude CoworkAktuelle KI-Agenten können langfristige, professionelle GUI-Workflows nicht zuverlässig ausführen und scheitern an Konsistenzerhalt, Fehlerausbreitung und domänenspezifischem Verständnis. Share on: