Auf den Punkt: SWE-Together misst die Leistung von Coding-Agenten über mehrere Interaktionsrunden hinweg, wie sie in echter Nutzung vorkommen, statt nur das Endergebnis einer einmaligen Aufgabe zu bewerten.

Forscher haben mit SWE-Together einen neuen Benchmark vorgestellt, der Coding-Agenten nicht wie bisher auf statische Aufgaben prüft, sondern auf ihre Fähigkeit zur iterativen Zusammenarbeit mit Nutzerinnen und Nutzern. Der Benchmark basiert auf 109 realen, mehrschrittig aufgezeichneten Coding-Sessions aus 11.260 Aufnahmen.

Die meisten Benchmarks für Coding-Agenten funktionieren nach dem gleichen Prinzip: Ein Agent erhält eine vollständige Aufgabenbeschreibung auf einmal und wird nur am finalen Code-Ergebnis gemessen. SWE-Together verfolgt einen anderen Ansatz. Das Team hat aus 11.260 aufgezeichneten Nutzersessions 109 Repository-Level-Aufgaben ausgewählt und kuratiert, bei denen die Repository-Zustände nachvollziehbar, die Nutzerziele klar und die Ergebnisse beobachtbar sind.

Der neue Benchmark unterscheidet sich durch zwei zentrale Merkmale. Erstens rekonstruiert er echte, mehrschrittige Interaktionen zwischen Nutzern und Agenten, bei denen Nutzer ihre Ziele klären, Einschränkungen hinzufügen und Fehler korrigieren. Zweitens nutzt SWE-Together einen reaktiven, auf LLM basierenden Nutzersimulator, der die Absichten der ursprünglichen Nutzer bewahrt und Feedback gibt, wenn der Fortschritt des Coding-Agenten dies erfordert.

Bei der Evaluierung wird nicht nur die abschließende Korrektheit des Repositorys gemessen, sondern auch die Anzahl der korrigierenden Feedback-Runden, die während der Interaktion notwendig waren. Tests mit führenden Coding-Agenten zeigen, dass stärkere Agenten höhere Erfolgsquoten bei der Fertigstellung erreichen und gleichzeitig weniger Interventionen benötigen – was auf ein verbessertes Nutzungserlebnis hindeutet.

Quelle: arxiv.org · Erschienen 28. June 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.2.

Share on:

SWE-Together: Benchmark für Coding-Agenten in interaktiven Nutzersitzungen

Lumi AI News

Rechtliches

Themenbereiche