MemAudit: 有害メモリの事後監査手法

MemAudit: Post-hoc Auditing of Poisoned Agent Memory via Causal Attribution and Structural Anomaly Detection

エージェントのメモリを監査する新手法

2026-05-22 中級 arXiv
LLM異常検知Agent
  • 大規模言語モデルは過去のやり取りを記憶するが、悪用される危険がある。
  • 本研究では、メモリの有害な影響を評価するMemAuditを提案。
  • 攻撃成功率を大幅に低下させる結果が得られた。
メモリ監査因果推論異常検知

大規模言語モデルエージェントは、過去のインタラクションを記憶することでタスクを改善しますが、悪意のあるユーザーによるメモリの悪用が懸念されています。本研究では、MemAuditという新しいメモリ監査フレームワークを提案し、因果関係と構造的異常検知を組み合わせて有害なメモリを特定します。実験結果では、攻撃成功率が大幅に低下し、実用的な防御手法としての可能性が示されました。特に、AIの安全性に関心がある研究者や開発者にとって興味深い内容です。

AIの安全性や倫理に興味がある研究者や開発者に向いています。

MemAudit: Post-hoc Auditing of Poisoned Agent Memory via Causal Attribution and Structural Anomaly Detection
Zhewen Tan, Yilun Yao, Huiyan Jin, Wenhan Yu, Guoan Wang, Mengyuan Fan ほか