Skip to main content
QUICK REVIEW

[論文レビュー] LifeBench: A Benchmark for Long-Horizon Multi-Source Memory

Zihao Cheng, Weixin Wang|arXiv (Cornell University)|Mar 4, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

LifeBench は長期的・多源のメモリベンチマークを導入し、宣言的記憶と非宣言的記憶推論を多様なデジタルトレースから組み合わせ、最新システムは最大で 55.2% の精度にとどまる。

ABSTRACT

Long-term memory is fundamental for personalized agents capable of accumulating knowledge, reasoning over user experiences, and adapting across time. However, existing memory benchmarks primarily target declarative memory, specifically semantic and episodic types, where all information is explicitly presented in dialogues. In contrast, real-world actions are also governed by non-declarative memory, including habitual and procedural types, and need to be inferred from diverse digital traces. To bridge this gap, we introduce Lifebench, which features densely connected, long-horizon event simulation. It pushes AI agents beyond simple recall, requiring the integration of declarative and non-declarative memory reasoning across diverse and temporally extended contexts. Building such a benchmark presents two key challenges: ensuring data quality and scalability. We maintain data quality by employing real-world priors, including anonymized social surveys, map APIs, and holiday-integrated calendars, thus enforcing fidelity, diversity and behavioral rationality within the dataset. Towards scalability, we draw inspiration from cognitive science and structure events according to their partonomic hierarchy; enabling efficient parallel generation while maintaining global coherence. Performance results show that top-tier, state-of-the-art memory systems reach just 55.2\% accuracy, highlighting the inherent difficulty of long-horizon retrieval and multi-source integration within our proposed benchmark. The dataset and data synthesis code are available at https://github.com/1754955896/LifeBench.

研究の動機と目的

  • 宣言的記憶と非宣言的記憶推論を統合して、人間のような長期記憶をモデリングする。
  • チャット、アプリ、健康記録など real-world priors に基づく、密度の高い1年間の多源データセットを作成する。
  • 複雑で多源のメモリタスクに対する現行メモリシステムを評価し、障害モードを特定する。
  • データ、合成フレームワーク、オープンライセンスの文書化を含む再現可能性パッケージを提供する。

提案手法

  • 認知インスピレーションを取り入れた合成パイプラインを提案し、5つのLLMベースモジュール(ペルソナ合成、階層的計画、日常活動シミュレーション、電話データ生成、QA生成)を用いる。
  • イベントを分解し、年間の軌跡を跨る時間整合性を確保する部項階層を用いる。
  • 主観的推論をLLM、客観的グラウンド作成を地図と制約で行う二重エージェントの日常活動シミュレーションを実装。
  • 豊富な電話データアーティファクト(連絡先、SMS、通話、カレンダー、チャット、健康データ)を生成し、多源観測を模倣する。
  • 標準化されたパイプラインとLLMジャッジを用いて、メモリカテゴリ全体のQA精度を評価する。

実験結果

リサーチクエスチョン

  • RQ1長期的で密に結びついたユーザ軌跡を複数のメモリシステムにより合成するにはどうすればよいか。
  • RQ2多源・断片的データ(チャット、カレンダー、健康記録、アプリデータ)は堅牢なメモリ推論を支えられるか。
  • RQ3長期かつ多源のタスクにおける現行メモリシステムの限界は何か。
  • RQ4非宣言的記憶の要素(習慣、技能、感情)は検索と推論にどのように影響するか。
  • RQ5現実的でプライバシーに配慮したベンチマークを実現するデータ品質とスケーラビリティ戦略は何か。

主な発見

  • トップメモリシステムでも LifeBench の全体精度は 55.2% にとどまり、ベンチマークの難易度を示している。
  • MemOS は Hindsight および MemU よりもいくつかのカテゴリで優れているが、非宣言的記憶推論と答えられないクエリでは苦戦する。
  • 既存のベンチマークは性能を過大評価しがちで、LifeBench は高密度・多源・長期データと複雑な推論を要求する。
  • LifeBench のデータは高い合理性と多様性、堅牢な関係一貫性と場所の妥当性指標を示す一方、微細な指標多様性には改善の余地がある。
  • 著者らはデータセット、合成フレームワーク、文書化を含む Apache-2.0 の再現性パッケージを提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。