[論文レビュー] Zep: A Temporal Knowledge Graph Architecture for Agent Memory
Zepは temporally-aware Graphiti 知識グラフを活用したAIエージェント用のメモリ層を導入し、 memory ベンチマークで最先端の結果を達成するとともに LongMemEval における待ち時間を大幅に削減する。エピソード記憶と意味記憶をコミュニティ要約と統合して、動的で複数ソースのデータを扱う。
We introduce Zep, a novel memory layer service for AI agents that outperforms the current state-of-the-art system, MemGPT, in the Deep Memory Retrieval (DMR) benchmark. Additionally, Zep excels in more comprehensive and challenging evaluations than DMR that better reflect real-world enterprise use cases. While existing retrieval-augmented generation (RAG) frameworks for large language model (LLM)-based agents are limited to static document retrieval, enterprise applications demand dynamic knowledge integration from diverse sources including ongoing conversations and business data. Zep addresses this fundamental limitation through its core component Graphiti -- a temporally-aware knowledge graph engine that dynamically synthesizes both unstructured conversational data and structured business data while maintaining historical relationships. In the DMR benchmark, which the MemGPT team established as their primary evaluation metric, Zep demonstrates superior performance (94.8% vs 93.4%). Beyond DMR, Zep's capabilities are further validated through the more challenging LongMemEval benchmark, which better reflects enterprise use cases through complex temporal reasoning tasks. In this evaluation, Zep achieves substantial results with accuracy improvements of up to 18.5% while simultaneously reducing response latency by 90% compared to baseline implementations. These results are particularly pronounced in enterprise-critical tasks such as cross-session information synthesis and long-term context maintenance, demonstrating Zep's effectiveness for deployment in real-world applications.
研究の動機と目的
- 静的コーパスを超えた会話とビジネスデータを統合する動的で記憶機能を持つエージェントの必要性を動機づける。
- Graphiti 上に構築された時点的に正確な非損失メモリ表現をサポートするグラフベースのメモリ層(Zep)を提案する。
- 企業ユースケースに関連するメモリベンチマークで、検索の精度向上と待ち時間の縮小を示す。
提案手法
- エピソードサブグラフ(生データメッセージ)、意味エンティティサブグラフ(抽出エンティティ/事実)、コミュニティサブグラフ(高レベル要約)という3層の時系列知識グラフを導入する。
- ビ テンポラルなタイムラインを用いてエピソードを取り込み、タイムラインTと取引タイムラインT'の両方を可能にし、追跡性のための非損失リンクを維持する。
- 埋め込み、エンティティ解決、時間的エッジの無効化を用いたエンティティと事実の抽出を実施し、複数エンティティの事実を含むハイパーエッジを管理する。
- 動的ラベル伝搬によるコミュニティを構築し、スケーラブルで最新の要約と検索を実現する。
- コサイン類似度、BM25、BFS グラフ検索を組み合わせたメモリ検索パイプラインを実装し、リランカーには RRF、MMR、クロスエンコーダスコアを含める。
- DMR(MemGPT)と LongMemEval ベンチマークで評価し、精度と遅延を比較する際に gpt-4o-mini と gpt-4-turbo モデルを使用する。
実験結果
リサーチクエスチョン
- RQ1 temporally-aware 知識グラフメモリ層は、静的ドキュメントRAGアプローチに比べて長期対話および企業データの検索精度を向上させるか。
- RQ2 Graphiti ベースのエピソード/意味サブグラフとコミュニティを用いたメモリは、実世界の展開における待ち時間とスケーラビリティにどう影響するか。
- RQ3 時間的抽出とエッジ無効化が、時間とともに正確で最新のメモリを維持する上でどのような影響を及ぼすか。
主な発見
| Memory | Model | Score | Latency | Latency IQR | Avg Context Tokens |
|---|---|---|---|---|---|
| DMR | Recursive Summarization | 35.3% | |||
| DMR | Conversation Summaries | 78.6% | |||
| DMR | MemGPT | 93.4% | |||
| DMR | Full-conversation | 94.4% | |||
| DMR | Zep | 94.8% | |||
| DMR | Conversation Summaries (gpt-4o-mini) | 88.0% | |||
| DMR | Full-conversation (gpt-4o-mini) | 98.0% | |||
| DMR | Zep (gpt-4o-mini) | 98.2% | |||
| LongMemEval | Full-context (gpt-4o-mini) | 55.4% | 31.3 s | 8.76 s | 115k |
| LongMemEval | Zep (gpt-4o-mini) | 63.8% | 3.20 s | 1.31 s | 1.6k |
| LongMemEval | Full-context (gpt-4o) | 60.2% | 28.9 s | 6.01 s | 115k |
| LongMemEval | Zep (gpt-4o) | 71.2% | 2.58 s | 0.684 s | 1.6k |
- Zep は gpt-4-turbo で DMR において 94.8%、gpt-4o-mini で 98.2% の精度を達成し、MemGPT のベースラインを上回る。
- LongMemEval では、Zep(gpt-4o-mini)は 63.8% の精度と 3.20 秒の遅延(フルコンテキストの 55.4% / 31.3 秒と比較)、gpt-4o では 71.2% の精度と 2.58 秒の遅延(フルコンテキストの 60.2% / 28.9 秒と比較)。
- Zep はベースラインアプローチに比べて遅延を約 90% 削減しつつ、複雑な質問タイプでより高い精度を達成。
- 時間推論と複数セッションのメモリタスクで最大の改善が見られ、企業風のシナリオにおける Zep の強さを示す。
- 評価はベンチマークの制限と、会話履歴と構造化データの統合を評価する企業向けメモリベンチマークの必要性を指摘する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。