Skip to main content
QUICK REVIEW

[论文解读] Zep: A Temporal Knowledge Graph Architecture for Agent Memory

Preston Rasmussen, Pavlo Paliychuk|ArXiv.org|Jan 20, 2025
Graph Theory and Algorithms被引用 4
一句话总结

Zep 为由时序感知的 Graphiti 知识图谱驱动的 AI 代理引入记忆层,在记忆基准上达到状态-of-the-art,并显著降低 LongMemEval 的延迟。它将情节记忆与语义记忆及社区摘要融合,以应对动态的多源数据。

ABSTRACT

We introduce Zep, a novel memory layer service for AI agents that outperforms the current state-of-the-art system, MemGPT, in the Deep Memory Retrieval (DMR) benchmark. Additionally, Zep excels in more comprehensive and challenging evaluations than DMR that better reflect real-world enterprise use cases. While existing retrieval-augmented generation (RAG) frameworks for large language model (LLM)-based agents are limited to static document retrieval, enterprise applications demand dynamic knowledge integration from diverse sources including ongoing conversations and business data. Zep addresses this fundamental limitation through its core component Graphiti -- a temporally-aware knowledge graph engine that dynamically synthesizes both unstructured conversational data and structured business data while maintaining historical relationships. In the DMR benchmark, which the MemGPT team established as their primary evaluation metric, Zep demonstrates superior performance (94.8% vs 93.4%). Beyond DMR, Zep's capabilities are further validated through the more challenging LongMemEval benchmark, which better reflects enterprise use cases through complex temporal reasoning tasks. In this evaluation, Zep achieves substantial results with accuracy improvements of up to 18.5% while simultaneously reducing response latency by 90% compared to baseline implementations. These results are particularly pronounced in enterprise-critical tasks such as cross-session information synthesis and long-term context maintenance, demonstrating Zep's effectiveness for deployment in real-world applications.

研究动机与目标

  • 推动需要动态、具记忆能力的代理的需求,即将会话与商业数据整合进超越静态语料库的系统。
  • 提出一个基于图的记忆层(Zep),构建于 Graphiti 之上,以支持时序准确、非丢失的记忆表示。
  • 在与企业用例相关的记忆基准上展示更高的检索准确性与更低的延迟。

提出的方法

  • 引入三层时序知识图谱:情节子图(原始消息)、语义实体子图(提取的实体/事实)和社区子图(高级摘要)。
  • 以双时态时间线摄取情节,支持时间线 T 与事务性时间线 T′,并为可追溯性保留非丢失连接。
  • 通过嵌入、实体解析与时间边缘失效来执行实体与事实提取,以管理不断演变的知识,包括用于多实体事实的超边。
  • 通过动态标签传播构建社区,以实现可扩展、时效性强的摘要与检索。
  • 实现记忆检索流水线(搜索、重新排序、构造器),结合余弦相似度、BM25 与 BFS 图搜索,重排序器包含 RRF、MMR 与交叉编码器评分。
  • 在 DMR(MemGPT)与 LongMemEval 基准上进行评估,使用 gpt-4o-mini 与 gpt-4-turbo 模型比较准确性与延迟。

实验结果

研究问题

  • RQ1一个时序感知的知识图谱记忆层是否能够在长对话与企业数据的检索中,相较静态文档的 RAG 方法提高准确性?
  • RQ2基于 Graphiti 的记忆,结合情节/语义子图与社区,在真实部署中对延迟与可扩展性有何影响?
  • RQ3时序提取与边缘失效对维持随时间更新的准确记忆有何影响?

主要发现

  • Zep 在 DMR 上使用 gpt-4-turbo 达到 94.8% 的准确率,使用 gpt-4o-mini 达到 98.2%,超越 MemGPT 基线。
  • 在 LongMemEval 上,Zep 配合 gpt-4o-mini 的准确率为 63.8%,延迟为 3.20 s(相比全上下文的 55.4% 与 31.3 s);使用 gpt-4o 时,准确率为 71.2%,延迟 2.58 s(相比 60.2% 与 28.9 s)。
  • Zep 相较于基线方法在复杂问题类型上将延迟降低约 90%,同时实现更高的准确性。
  • 时序推理与多会话记忆任务在企业场景中表现出最大的增益,显示 Zep 在企业化场景中的优势。
  • 评估指出基准的局限性,以及需要更多与企业相关的记忆基准,以评估会话历史与结构化数据的综合能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。