[論文レビュー] Chronos: Temporal-Aware Conversational Agents with Structured Event Retrieval for Long-Term Memory
Chronos は temporally grounded なイベントを選択的に抽出するデュアルカレンダー記憶システムを導入し、動的 prompting を用いて LLM 搭載対話エージェントの temporally-aware な長期記憶検索を効率化。LongMemEvalS において最先端の精度を達成。
Recent advances in Large Language Models (LLMs) have enabled conversational AI agents to engage in extended multi-turn interactions spanning weeks or months. However, existing memory systems struggle to reason over temporally grounded facts and preferences that evolve across months of interaction and lack effective retrieval strategies for multi-hop, time-sensitive queries over long dialogue histories. We introduce Chronos, a novel temporal-aware memory framework that decomposes raw dialogue into subject-verb-object event tuples with resolved datetime ranges and entity aliases, indexing them in a structured event calendar alongside a turn calendar that preserves full conversational context. At query time, Chronos applies dynamic prompting to generate tailored retrieval guidance for each question, directing the agent on what to retrieve, how to filter across time ranges, and how to approach multi-hop reasoning through an iterative tool-calling loop over both calendars. We evaluate Chronos with 8 LLMs, both open-source and closed-source, on the LongMemEvalS benchmark comprising 500 questions spanning six categories of dialogue history tasks. Chronos Low achieves 92.60% and Chronos High scores 95.60% accuracy, setting a new state of the art with an improvement of 7.67% over the best prior system. Ablation results reveal the events calendar accounts for a 58.9% gain on the baseline while all other components yield improvements between 15.5% and 22.3%. Notably, Chronos Low alone surpasses prior approaches evaluated under their strongest model configurations.
研究の動機と目的
- 数週〜数か月にわたる対話における temporally grounded な長期記憶の課題に対処。
- 時系列イベントを選択的に抽出し、意味検索のために生のターンを保持するメモリフレームワークを提案。
- 各質問ごとの検索指針を動的に生成し、二つのカレンダー上で反復的なツール呼び出しを可能とする。
提案手法
- タイムスタンプ付きイベントを主語-動詞-目的語のトリプレットとして、解決済み日時範囲と共に抽出。
- 二つのカレンダーを維持:構造化された時間イベントのためのイベントカレンダーと、生データ対話のためのターンカレンダー。
- ターンカレンダー上でのベクトル検索・再ランキング・文脈拡張の三段階初期検索を用いた密集検索と再ランキング。
- 動的 prompting を適用し、メモリ照会のための各質問ごとの検索指針を生成。
- Chronos エージェントを実装し、ツール呼び出し機能を用いて二つのカレンダー上で反復的な検索を実行。

実験結果
リサーチクエスチョン
- RQ1クエリ条件付けによる temporally grounded なイベントの選択的抽出は、純粋なターンレベルや完全に構造化された知識ベースアプローチと比較して長期記憶検索をどう改善するか?
- RQ2動的 prompting は時系列推論、知識更新、複数セッションの集約といった異なる長期記憶クエリタイプに対して検索戦略を適合させ得るか?
- RQ3二重カレンダー記憶とイベント中心のインデックスは、スケールにおいて正確なセッション横断の時間推論を可能にするか?
主な発見
| Method | Overall | KU | MS | SSA | SSP | SSU | TR |
|---|---|---|---|---|---|---|---|
| Chronos Low (Ours) | 92.60 | 96.15 | 91.73 | 100.00 | 80.00 | 94.29 | 90.23 |
| Honcho † | 90.40 | 94.87 | 84.96 | 96.43 | 90.00 | 94.29 | 88.72 |
| EmergenceMem Internal | 86.00 | 83.33 | 81.20 | 100.00 | 60.00 | 98.57 | 85.71 |
| Mastra | 84.80 | 85.90 | 79.70 | 82.14 | 73.33 | 98.57 | 85.71 |
| Supermemory | 81.60 | 88.50 | 71.40 | 96.40 | 70.00 | 97.10 | 76.70 |
| Hindsight ‡ | 83.60 | 84.60 | 79.70 | 94.60 | 66.70 | 95.70 | 79.70 |
| Zep | 71.20 | 83.30 | 57.90 | 80.40 | 56.70 | 92.90 | 62.40 |
| Full-context | 60.20 | 78.20 | 44.30 | 94.60 | 20.00 | 81.40 | 45.10 |
- Chronos Low は LongMemEvalS で 92.60% の精度を達成し、GPT-4o を用いた実用的手法の新たな最先端となる。
- Chronos High は LongMemEvalS で 95.60% の精度を達成し、このベンチマークのより強力なモデルで報告された最高値。
- イベントカレンダーはアブレーションでベースラインより 58.9% の改善を寄与し、他の構成要素は 15.5–22.3% の改善を生む。
- Chronos は知識更新の追跡と複数セッションの集約でベースラインを上回り、いくつかの単一セッションカテゴリで完璧な精度を達成。
- 動的 prompting は各質問ごとの検索指針を提供し、特にモデル能力が低い Chronos Low において性能を向上させる。
- アブレーション結果はイベント索引を除去すると Chronos Low の精度がほぼ半減することを示し、時系列構造化の価値を裏付ける。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。