[论文解读] MAGMA: A Multi-Graph based Agentic Memory Architecture for AI Agents
MAGMA 引入一个多图、关系解耦的记忆模型(语义、时间、因果、实体)供 AI 代理使用,并通过策略引导的图遍历来检索证据,在长期推理方面比现有 MAG 系统具有更低延迟和更好的表现。
Memory-Augmented Generation (MAG) extends Large Language Models with external memory to support long-context reasoning, but existing approaches largely rely on semantic similarity over monolithic memory stores, entangling temporal, causal, and entity information. This design limits interpretability and alignment between query intent and retrieved evidence, leading to suboptimal reasoning accuracy. In this paper, we propose MAGMA, a multi-graph agentic memory architecture that represents each memory item across orthogonal semantic, temporal, causal, and entity graphs. MAGMA formulates retrieval as policy-guided traversal over these relational views, enabling query-adaptive selection and structured context construction. By decoupling memory representation from retrieval logic, MAGMA provides transparent reasoning paths and fine-grained control over retrieval. Experiments on LoCoMo and LongMemEval demonstrate that MAGMA consistently outperforms state-of-the-art agentic memory systems in long-horizon reasoning tasks.
研究动机与目标
- 解决 MAG 系统中单一记忆在长期推理中的局限性。
- 提出一个多图记忆底座,将语义、时间、因果和实体关系分离。
- 开发一个自适应、意图感知的检索策略,高效穿越关系视图。
- 通过双流(快速突触摄取,异步结构整合)工作流实现记忆摄取与推理解耦。
- 在 LoCoMo 和 LongMemEval 基准上相较于现有基线表现出改进。
提出的方法
- 将记忆表示为随时间变化的有向多重图,包含四个正交关系图(语义、时间、因果、实体)。
- 使用分层的、意图感知的查询路由器对查询进行分解并引导跨多个视图的检索。
- 计算动态转换分数 S(nj|ni,q),将结构对齐与语义相似性融合以实现图遍历。
- 将检索到的子图序列化为结构化、可溯源的叙事提示,以降低幻觉产生。
- 实现快速突触摄取的双流记忆演化与异步结构化整合。
实验结果
研究问题
- RQ1一个多图记忆底座是否能在长期推理方面优于单一记忆或仅语义驱动的 MAG 系统?
- RQ2自适应、意图感知的遍历策略是否能提高长上下文任务的检索效率与对齐质量?
- RQ3将记忆摄取与整合解耦是否能在保持响应性的同时深化关系结构?
- RQ4相较于最先进的基线,MAGMA 在长期上下文基准(LoCoMo、LongMemEval)上的表现如何?
主要发现
| Method | Multi-Hop | Temporal | Open-Domain | Single-Hop | Adversarial | Overall |
|---|---|---|---|---|---|---|
| Full Context | 0.468 | 0.562 | 0.486 | 0.630 | 0.205 | 0.481 |
| A-MEM | 0.495 | 0.474 | 0.385 | 0.653 | 0.616 | 0.580 |
| MemoryOS | 0.552 | 0.422 | 0.504 | 0.674 | 0.428 | 0.553 |
| Nemori | 0.569 | 0.649 | 0.485 | 0.764 | 0.325 | 0.590 |
| MAGMA (ours) | 0.528 | 0.650 | 0.517 | 0.776 | 0.742 | 0.700 |
- MAGMA 在 LoCoMo 上获得最高总体评审分数(0.700),超过 Full Context、A-MEM、MemoryOS 与 Nemori。
- MAGMA 展现出强烈的时间推理能力与对抗鲁棒性,评审分数分别为 0.650 与 0.742。
- 在 LongMemEval 上,MAGMA 达到最高的平均准确率(61.2%),且每次查询使用的 token 数显著低于 Full Context(0.7k–4.2k)。
- MAGMA 的查询延迟最低(1.47 秒)且 token 成本具有竞争力(3.37k),这得益于自适应遍历和双流设计。
- 消融实验表明遍历策略至关重要,因果/时间结构贡献显著增益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。