Auf den Punkt: Kein bestehendes Speicher-Agent-System erfüllt gleichzeitig die Anforderungen an Nützlichkeit, Zugriffskontrolle und zuverlässiges Löschen in Multi-User-Umgebungen.
Forscher präsentieren GateMem, einen Benchmark zur Bewertung von Speichergovernance in LLM-Agenten, die von mehreren Nutzern gleichzeitig genutzt werden. Die Tests zeigen, dass aktuelle Systeme Zugriffskontrollen und Datenlöschungen nicht zuverlässig umsetzen.
Das Benchmark-Framework GateMem adressiert eine zentrale Lücke in der Evaluierung von LLM-Agenten: Die meisten bisherigen Speicher-Benchmarks gehen von Single-User-Szenarien aus und berücksichtigen nicht die Anforderungen echter Multi-Principal-Deployments in Krankenhäusern, Büros, Bildungseinrichtungen und privaten Haushalten. In diesen Umgebungen schreiben mehrere Nutzer in gemeinsame Speicherpools und fragen diese unter unterschiedlichen Rollen, Zugriffsbereichen und Beziehungen ab – hier wird Speicherqualität durch Governance zu einer kritischen Anforderung.
GateMem evaluiert drei zentrale Aspekte simultan: die Nützlichkeit für legitime Langzeit-Anfragen mit Speicheraktualisierungen, die Robustheit der Zugriffskontrolle über Autorisierungsgrenzen hinweg, und die Zuverlässigkeit des Vergessens nach expliziter Löschanforderung. Das Framework umfasst Domänen aus Medizin, Office-Umgebungen, Bildung und Privathaushalt mit mehrteiligen, längerfristigen Szenarien, inkrementeller Speicherinjektion, verborgenen Kontrollpunkten und strukturiertem Judging inklusive Leak-Target-Annotations.
Die Evaluierung über diverse Baselines und Backbone-Modelle hinweg enthüllt ein durchgängiges Problem: Kein Verfahren erreicht gleichzeitig hohe Utility-Scores, robuste Zugriffskontrolle und zuverlässiges Forgetting. Long-Context-Prompting erzielt zwar die besten Governance-Ergebnisse, erfordert aber deutlich höhere Token-Kosten. Retrieval-basierte und externe Speicher-Methoden reduzieren die Kosten, geben aber dennoch unerlaubte oder bereits gelöschte Informationen preis. Diese Ergebnisse demonstrieren, dass gegenwärtige Speicher-Agenten für zuverlässige, geteilte institutionelle Deployments noch nicht einsatzreif sind.
Quelle: arxiv.org · Erschienen 16. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.