[论文解读] Structured Episodic Event Memory
SEEM 引入一个分层记忆系统,将图记忆层与动态情节记忆层耦合,以改善基于LLM的代理的长期推理,在 LoCoMo 和 LongMemEval 基线之上实现更好的表现。
Current approaches to memory in Large Language Models (LLMs) predominantly rely on static Retrieval-Augmented Generation (RAG), which often results in scattered retrieval and fails to capture the structural dependencies required for complex reasoning. For autonomous agents, these passive and flat architectures lack the cognitive organization necessary to model the dynamic and associative nature of long-term interaction. To address this, we propose Structured Episodic Event Memory (SEEM), a hierarchical framework that synergizes a graph memory layer for relational facts with a dynamic episodic memory layer for narrative progression. Grounded in cognitive frame theory, SEEM transforms interaction streams into structured Episodic Event Frames (EEFs) anchored by precise provenance pointers. Furthermore, we introduce an agentic associative fusion and Reverse Provenance Expansion (RPE) mechanism to reconstruct coherent narrative contexts from fragmented evidence. Experimental results on the LoCoMo and LongMemEval benchmarks demonstrate that SEEM significantly outperforms baselines, enabling agents to maintain superior narrative coherence and logical consistency.
研究动机与目标
- 解决LLM代理的分散检索和弱长期记忆问题。
- 开发一个双层记忆系统,将静态关系事实的图记忆层(GML)与动态叙事推进的情节记忆层(EML)结合起来。
- 通过指针将记忆单元锚定到确切来源,并实现复杂推理情境的连贯重建。
- 在 LoCoMo 和 LongMemEval 上评估 SEEM,并与记忆增强和密集检索基线进行对比。
提出的方法
- 将交互流转化为双层记忆:具有情节事件框架(EEFs)的情节记忆层(EML)和具有关系四元组的图记忆层(GML)。
- 利用基于LLM的提取器从段落中提取 EEFs,并以出处指针锚定;通过联想整合合并相关框架。
- 通过着地产生关系四元组并合并相似节点来从段落构建关系图。
- 使用带Relational Propagation 的混合检索和 Reverse Provenance Expansion,通过出处链接扩展检索上下文。
- 通过序列化扩展后的段落、EEFs 和关系事实来合成最终上下文,以便供LLM进行条件生成。
- 使用词汇和语义指标进行评估,包括 BLEU-1、F1、J(LLM评判)以及 LongMemEval 的准确率;进行消融实验和案例研究。
实验结果
研究问题
- RQ1分层记忆结构是否能在长时间互动中相较于扁平或纯密集检索方法提升连贯性与事实一致性?
- RQ2结构化的情节事件框架加上联想融合是否比现有记忆系统更能保持叙事推进和时序推理?
- RQ3反向出处扩展如何影响上下文完整性与推理质量?
- RQ4SEEM 的各组件(EEFs、RPE、GML 提供、关系传播)对整体性能的贡献分别是什么?
主要发现
| BLEU-1 | F1 | J | Acc. | |
|---|---|---|---|---|
| KaLM-Embedding-V2.5 | 44.4 | 47.9 | 64.6 | 55.6 |
| NV-Embed-v2 | 53.0 | 57.9 | 74.7 | 58.4 |
| Mem0 | 34.2 | 43.3 | 54.1 | 56.7 |
| A-MEM | 45.7 | 44.6 | 61.9 | 55.2 |
| HippoRAG 2 | 53.8 | 58.3 | 76.2 | 60.6 |
| SEEM (Ours) | 56.1 | 61.1 | 78.0 | 65.0 |
- SEEM 在 LoCoMo 与 LongMemEval 的词汇及语义指标上均达到最高分。
- 在 LoCoMo 上,SEEM 达到 BLEU-1 56.1、F1 61.1、J 78.0,以及 Acc. 65.0,分别比 HippoRAG 2 在相应指标上提高 2.8%(F1)和 1.5%(J)。
- 在 LongMemEval 上,SEEM 的准确率达到 65.0%,相比 HippoRAG 2 提升了 4.4 个百分点。
- SEEM 在语义评估(J)和长期准确性方面显著优于密集检索基线(如 NV-Embed-v2),表明具有更强的叙事基础和一致性。
- 消融结果显示每个核心组件(EEF、RPE、Relational Propagation、Fact Provisioning)对性能有贡献;去掉任意组件均会降低各项指标。
- 时间推理和对抗性推理在情节记忆层和出处锚定的帮助下尤为显著。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。