QUICK REVIEW

[論文レビュー] From Lossy to Verified: A Provenance-Aware Tiered Memory for Agents

Qiming Zhu, Shunian Chen|arXiv (Cornell University)|Feb 20, 2026

Scientific Computing and Data Management被引用数 2

ひとこと要約

TierMemは長期的なエージェントの出所リンク付き2層メモリを提供し、速いサマリをデフォルトとする一方、必要時には不変の生ログへエスカレートし、再検証済みの発見を再び書き戻して将来の効率を改善する。

ABSTRACT

Long-horizon agents often compress interaction histories into write-time summaries. This creates a fundamental write-before-query barrier: compression decisions are made before the system knows what a future query will hinge on. As a result, summaries can cause unverifiable omissions -- decisive constraints (e.g., allergies) may be dropped, leaving the agent unable to justify an answer with traceable evidence. Retaining raw logs restores an authoritative source of truth, but grounding on raw logs by default is expensive: many queries are answerable from summaries, yet raw grounding still requires processing far longer contexts, inflating token consumption and latency. We propose TierMem, a provenance-linked framework that casts retrieval as an inference-time evidence allocation problem. TierMem uses a two-tier memory hierarchy to answer with the cheapest sufficient evidence: it queries a fast summary index by default, and a runtime sufficiency router Escalates to an immutable raw-log store only when summary evidence is insufficient. TierMem then writes back verified findings as new summary units linked to their raw sources. On LoCoMo, TierMem achieves 0.851 accuracy (vs.0.873 raw-only) while reducing input tokens by 54.1\% and latency by 60.7%.

研究の動機と目的

長距離ヒューリスティッククエリにおける書き込み前クエリ障壁と、それが検証可能性へ与える影響を特定する。
出所リンク付きの二層メモリ（要約 + 不変の生ログ）を提案し、選択的エスカレーションを可能にする。
サマリーが十分かどうかを判断する軽量ルータを開発し、生ログへのエスカレーションを決定する。
オンライン統合を可能にするため、検証済みの発見をサマリ tierへ書き戻して生ログアクセスコストを償却する。

提案手法

二層メモリ：Tier-1 出所リンク付きサマリとTier-2 不変の生ログ（安定したページIDを持つ）。
推論時のルータπθが各クエリについてAnswer（サマリ）かEscalate（Tier-2でグラウンド）を決定。
出所に基づくエスカレーションはリンク付きTier-2ページを優先し、必要に応じて境界的なマルチホップ生ログ取得を行う。
検証済みの書き戻しはTier-1へ出所情報とともにグラウンドされた発見を書き戻し、追跡性を維持する。
オラクルの監督信号（サマリーのみ vs 生ロググラウンド）とコスト認識付き整合性（GRPO）を用いたルータの訓練。
LoCoMoとLongMemEvalのベンチマークで、正確性、効率、未記載率を測定する。

実験結果

リサーチクエスチョン

RQ1TierMemは長期ヒストリーメモリベンチマークにおいてサマリーのみおよび生ログのみのベースラインと比較して正確性–効率トレードオフを改善するか？
RQ2軽量ルータは信頼性を持って証拠不足を検知できるか（オーバーヘッドは無視できる程度か？）
RQ3出所ポインタはエスカレートしたクエリのグラウンディング品質を向上させるか？
RQ4オンライン統合はTier-1へ検証済み発見をpushすることで生ログアクセスコストを時間とともに償却するか？

主な発見

LoCoMoではTierMemのルータが0.851の正確度を達成する一方、生ログのみは0.873であり、入力トークンを54.1%削減し待機時間を60.7%短縮した。
サマリーのみの手法は顕著な検証不能な欠落率（UOR 14.7%–23.3%がLoCoMoで見られる）を示す。
LongMemEvalではTierMemがサマリー喪失を生ロググラウンディングへとルーティングすることで緩和し、サマリーのみのベースラインよりも高い正確性を維持した。
出所リンク付きポインタはエスカレートしたクエリの正確性を高め、リンクあり85.1%対リンクなし83.6%のアブレーション結果を示した。
オンライン書き戻しによる統合はリプレイエポックごとの安価なパスのカバレッジを高め、後続クエリの平均トークン数と待機時間を削減した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。