[論文レビュー] ES-MemEval: Benchmarking Conversational Agents on Personalized Long-Term Emotional Support
This paper introduces ES-MemEval, a benchmark for evaluating long-term memory in personalized emotional-support dialogues, plus EvoEmo, a multi-session dataset; it analyzes open-source, commercial, and retrieval-augmented LLMs across QA, summarization, and dialogue generation tasks.
Large Language Models (LLMs) have shown strong potential as conversational agents. Yet, their effectiveness remains limited by deficiencies in robust long-term memory, particularly in complex, long-term web-based services such as online emotional support. However, existing long-term dialogue benchmarks primarily focus on static and explicit fact retrieval, failing to evaluate agents in critical scenarios where user information is dispersed, implicit, and continuously evolving. To address this gap, we introduce ES-MemEval, a comprehensive benchmark that systematically evaluates five core memory capabilities: information extraction, temporal reasoning, conflict detection, abstention, and user modeling, in long-term emotional support settings, covering question answering, summarization, and dialogue generation tasks. To support the benchmark, we also propose EvoEmo, a multi-session dataset for personalized long-term emotional support that captures fragmented, implicit user disclosures and evolving user states. Extensive experiments on open-source long-context, commercial, and retrieval-augmented (RAG) LLMs show that explicit long-term memory is essential for reducing hallucinations and enabling effective personalization. At the same time, RAG improves factual consistency but struggles with temporal dynamics and evolving user states. These findings highlight both the potential and limitations of current paradigms and motivate more robust integration of memory and retrieval for long-term personalized dialogue systems.
研究の動機と目的
- 感情支援エージェントにおける長期的記憶の堅牢性の必要性を、静的リトリーブを超えて動機づける。
- 長期的なESシナリオにおける情報抽出、時制推論、衝突検出、回避、ユーザーモデリングの5つのコア記憶能力を定義する。
- 記憶能力を評価する三タスクベンチマークとしてES-MemEvalを提案する(QA、要約、対話生成)。
- 個別化された長期ESのために、進化するユーザー状態を捉えるマルチセッションデータセットとしてEvoEmoを提供する。
- オープンソース、商用、RAGモデルの長期パーソナライゼーションにおける長所・限界について実証的洞察を提供する。
提案手法
- 5つの記憶能力を探索する3つのベンチマークタスク(QA、要約、対話生成)を提案する。
- イベントタイムラインとマルチセッションを生成する18名の仮想ユーザーを構築し、GPT-4oと人間の検証によってマルチセッションを作成してEvoEmoを構築する。
- 標準化された指標(F1、BERTScore、LLM-as-Judge、ROUGE、イベントベース指標、観察ベース評価)を用いてオープンソース長文脈・商用・取得拡張設定のモデルを評価する。
- RAG設定に memory を供給するため、FAISSインデックス上の密ベクトルリトリーバー(bge-m3)を用いたセッションレベルのリトリーブを使用する。
- QA、要約、対話生成におけるRetrieval Granularity(ターン、ラウンド、セッション)と文脈長の影響を分析する。

実験結果
リサーチクエスチョン
- RQ1ESシナリオにおける進化する暗黙的なユーザー開示を、LLMは長期記憶をどの程度維持・活用できるか。
- RQ2長期ESタスクにおけるオープンソース、商用、取得拡張モデルの相対的長所と短所は何か。
- RQ3記憶能力(IE、TR、CD、Abs、UM)はQA、要約、対話生成の性能をどの程度予測するか。
- RQ4リトリーブ拡張は事実的一貫性とパーソナライズを向上させるか。時系列ダイナミクスの不安定化を招かないか。
- RQ5長期感情支援対話を最も効果的に支援するリトリーバリティと文脈長はどれか。
主な発見
- 長期記憶の明示は幻覚を減らし、パーソナライゼーションを可能にするために不可欠である。
- リトリーブ拡張(RAG)設定は事実的一貫性を向上させるが、時系列ダイナミクスと進化するユーザー状態には苦戦する。
- パーソナライゼーションは長期記憶と強く相関し、感情支援は一般的な戦略から利益を得る。
- セッションレベルのリトリーブは進化するユーザー情報を最もよく捉え、他の粒度より記憶適合の応答を改善する。
- RAGは生成応答の記憶整合性を高めることで、オープンソースと商用システムのギャップを狭める。
- より小さな長文脈モデルは過度に長い入力で劣化するため、記憶リトリーブの統合が必要である。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。