Auf den Punkt: DailyReport ist ein neuer Open-Source-Benchmark, der Such-Agenten anhand alltagsnaher, mehrdimensionaler Suchaufgaben bewertet und Optimierungspotenziale in bestehenden Systemen aufdeckt.
Forscher haben DailyReport vorgestellt, einen Benchmark mit 150 offenen Aufgaben und 3.546 Bewertungskriterien zur Evaluation von Search Agents im realistischen Einsatz. Die Analyse von 17 agentic Systemen zeigt, dass aktuelle Implementierungen hinter den Nutzererwartungen zurückbleiben.
Search Agents nutzen große Sprachmodelle, um komplexe Informationssuchaufgaben eigenständig zu bewältigen, indem sie Webquellen erkunden und Informationen in umfassende Antworten synthetisieren. Bisherige Evaluierungs-Benchmarks konzentrierten sich überwiegend auf spezialisierte Aufgaben, die in realen Nutzerszenarien selten vorkommen.
DailyReport adressiert diese Lücke mit 150 offenen Aufgaben, die häufig diskutierte, aktuelle Informationsbedarfe von echten Nutzern abbilden. Jede Aufgabe wird in Teilaufgaben zerlegt und über kaskadierende Rubrics entlang disjunkter Dimensionen evaluiert. Diese Struktur ermöglicht präzisere Zuordnung von Schwächen zu einzelnen Verarbeitungsschritten und Aspekten (Recherchequalität, Syntheseleistung, Aktualität etc.).
Die Evaluierung von 17 agentic Systemen deckt auf, dass keine der getesteten Implementierungen den durchschnittlichen Nutzererwartungen genügt. Durch benutzerzentrierte Aggregation und Dimensionalisierung liefert der Benchmark interpretierbare Scores je Dimension sowie ein Nutzer-Präferenz-Score, der Vergleichbarkeit verbessert.
Dataset und Quellcode stehen unter https://github.com/AGI-Eval-Official/DailyReport öffentlich zur Verfügung und ermöglichen systematische Weiterentwicklung von Such-Agenten-Architekturen.
Quelle: arxiv.org · Erschienen 10. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.