Auf den Punkt: Kein bestehendes Speicher-Agent-System erfüllt gleichzeitig die Anforderungen an Nützlichkeit, Zugriffskontrolle und zuverlässiges Löschen in Multi-User-Umgebungen.

Forscher präsentieren GateMem, einen Benchmark zur Bewertung von Speichergovernance in LLM-Agenten, die von mehreren Nutzern gleichzeitig genutzt werden. Die Tests zeigen, dass aktuelle Systeme Zugriffskontrollen und Datenlöschungen nicht zuverlässig umsetzen.

Das Benchmark-Framework GateMem adressiert eine zentrale Lücke in der Evaluierung von LLM-Agenten: Die meisten bisherigen Speicher-Benchmarks gehen von Single-User-Szenarien aus und berücksichtigen nicht die Anforderungen echter Multi-Principal-Deployments in Krankenhäusern, Büros, Bildungseinrichtungen und privaten Haushalten. In diesen Umgebungen schreiben mehrere Nutzer in gemeinsame Speicherpools und fragen diese unter unterschiedlichen Rollen, Zugriffsbereichen und Beziehungen ab – hier wird Speicherqualität durch Governance zu einer kritischen Anforderung.

GateMem evaluiert drei zentrale Aspekte simultan: die Nützlichkeit für legitime Langzeit-Anfragen mit Speicheraktualisierungen, die Robustheit der Zugriffskontrolle über Autorisierungsgrenzen hinweg, und die Zuverlässigkeit des Vergessens nach expliziter Löschanforderung. Das Framework umfasst Domänen aus Medizin, Office-Umgebungen, Bildung und Privathaushalt mit mehrteiligen, längerfristigen Szenarien, inkrementeller Speicherinjektion, verborgenen Kontrollpunkten und strukturiertem Judging inklusive Leak-Target-Annotations.

Die Evaluierung über diverse Baselines und Backbone-Modelle hinweg enthüllt ein durchgängiges Problem: Kein Verfahren erreicht gleichzeitig hohe Utility-Scores, robuste Zugriffskontrolle und zuverlässiges Forgetting. Long-Context-Prompting erzielt zwar die besten Governance-Ergebnisse, erfordert aber deutlich höhere Token-Kosten. Retrieval-basierte und externe Speicher-Methoden reduzieren die Kosten, geben aber dennoch unerlaubte oder bereits gelöschte Informationen preis. Diese Ergebnisse demonstrieren, dass gegenwärtige Speicher-Agenten für zuverlässige, geteilte institutionelle Deployments noch nicht einsatzreif sind.

Quelle: arxiv.org · Erschienen 16. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.

Share on:

GateMem: Benchmark für Speicherverwaltung in Multi-Agent-Systemen

Lumi AI News

Rechtliches

Themenbereiche