NEUSWE-Together: Benchmark für Coding-Agenten in interaktiven Nutzersitzungen

30. June 202630. June 2026
AI Models, Claude Code

SWE-Together misst die Leistung von Coding-Agenten über mehrere Interaktionsrunden hinweg, wie sie in echter Nutzung vorkommen, statt nur das Endergebnis einer einmaligen Aufgabe zu bewerten.

Share on:

GLM-5.2: Chinesisches Open-Weights-Modell mit 753 Milliarden Parametern

18. June 202618. June 2026
AI Models, Claude Code

GLM-5.2 rangiert als führendes offenes Sprachmodell auf dem Artificial-Analysis-Index mit einem Score von 51 und belegt Platz 2 im Code-Arena-WebDev-Leaderboard, produziert aber signifikant mehr Output-Tokens als Konkurrenzmodelle.

Share on:

LoopCoder-v2: Zwei Schleifen als Optimum für effiziente Modellkomputation beim Programmieren

17. June 202617. June 2026
AI Models, Claude Code

LoopCoder-v2 mit zwei Schleifen verbessert Code-Reasoning-Benchmarks erheblich (SWE-bench Verified: 43,0 → 64,4 Punkte), während drei oder mehr Schleifen durch wachsende Positionsfehler kontraproduktiv sind.

Share on:

Grammar-Constrained Decoding ermöglicht Jailbreak von LLMs zur Malware-Generierung

11. June 202611. June 2026
AI Models, Claude Code, Cybersecurity

Grammar-Constrained Decoding (GCD), ein Verfahren zur Sicherung syntaktisch korrekten Codes, eröffnet Angreifern eine neue Jailbreak-Methode mit Erfolgsrate über 30 Prozentpunkte höher als bisherige Ansätze.

Share on:

Anthropics Arbor: KI-Agenten führen autonome Forschungszyklen durch

11. June 202611. June 2026
AI Models, Claude AI

Arbor koordiniert autonome KI-Agenten über persistente Hypothesenbäume und erzielte auf sechs Forschungsaufgaben 2,5-fach bessere Ergebnisse als Codex und Claude Code.

Share on:

Socratic-SWE: Selbstlernende KI-Agenten für Code-Reparaturen

8. June 20268. June 2026
AI Models, Claude Code

Ein selbstlernender Rahmen für Code-Reparatur-Agenten nutzt deren Lösungsspuren direkt zur gezielten Generierung von Trainingsaufgaben und erreicht damit höhere Genauigkeit als bisherige Ansätze.

Share on:

NEUSWE-Together: Benchmark für Coding-Agenten in interaktiven Nutzersitzungen

GLM-5.2: Chinesisches Open-Weights-Modell mit 753 Milliarden Parametern

LoopCoder-v2: Zwei Schleifen als Optimum für effiziente Modellkomputation beim Programmieren

Grammar-Constrained Decoding ermöglicht Jailbreak von LLMs zur Malware-Generierung

Anthropics Arbor: KI-Agenten führen autonome Forschungszyklen durch

Socratic-SWE: Selbstlernende KI-Agenten für Code-Reparaturen

Lumi AI News

Rechtliches

Themenbereiche