SWE-Together misst die Leistung von Coding-Agenten über mehrere Interaktionsrunden hinweg, wie sie in echter Nutzung vorkommen, statt nur das Endergebnis einer einmaligen Aufgabe zu bewerten.
GLM-5.2 rangiert als führendes offenes Sprachmodell auf dem Artificial-Analysis-Index mit einem Score von 51 und belegt Platz 2 im Code-Arena-WebDev-Leaderboard, produziert aber signifikant mehr Output-Tokens als Konkurrenzmodelle.
LoopCoder-v2 mit zwei Schleifen verbessert Code-Reasoning-Benchmarks erheblich (SWE-bench Verified: 43,0 → 64,4 Punkte), während drei oder mehr Schleifen durch wachsende Positionsfehler kontraproduktiv sind.
Grammar-Constrained Decoding (GCD), ein Verfahren zur Sicherung syntaktisch korrekten Codes, eröffnet Angreifern eine neue Jailbreak-Methode mit Erfolgsrate über 30 Prozentpunkte höher als bisherige Ansätze.
Arbor koordiniert autonome KI-Agenten über persistente Hypothesenbäume und erzielte auf sechs Forschungsaufgaben 2,5-fach bessere Ergebnisse als Codex und Claude Code.
Ein selbstlernender Rahmen für Code-Reparatur-Agenten nutzt deren Lösungsspuren direkt zur gezielten Generierung von Trainingsaufgaben und erreicht damit höhere Genauigkeit als bisherige Ansätze.