SWE-Together misst die Leistung von Coding-Agenten über mehrere Interaktionsrunden hinweg, wie sie in echter Nutzung vorkommen, statt nur das Endergebnis einer einmaligen Aufgabe zu bewerten.
Zehn der elf getesteten Open-Source-KI-Agenten lassen sich durch eine klassische Shell-Injection-Technik dazu bringen, Sicherheitsprüfungen zu umgehen.
Dedizierte Explorations-Modelle (4B–30B Parameter) können Code-Suche in Repositories effizienter handhaben als allgemeine Solver-Modelle und reduzieren dabei Context-Pollution erheblich.
AI-native Entwicklung erfordert Neugestaltung von Workflows und Kontextzugang für Agenten, nicht nur schnellere Tooleinführung – erreicht dann aber 4,5x bis 10x Produktivitätszuwachs.
Nur jeder fünfte Sozialwissenschaftler nutzt autonome Kodierungs-Agenten, obwohl diese Forschungsprozesse revolutionieren könnten. Deutliche Unterschiede zeigen sich nach Geschlecht und Institution – ein Hinweis auf wachsende digitale Ungleichheiten in der Wissenschaft.