[論文レビュー] UMEM: Unified Memory Extraction and Management Framework for Generalizable Memory
UMEM は自己進化する LLM エージェントのメモリ抽出と管理を共同最適化し、意味的近傍モデリングと GRPO を用いてメモリをクエリ間で一般化し、マルチターンおよび実体タスクの性能を向上させる。
Self-evolving memory serves as the trainable parameters for Large Language Models (LLMs)-based agents, where extraction (distilling insights from experience) and management (updating the memory bank) must be tightly coordinated. Existing methods predominately optimize memory management while treating memory extraction as a static process, resulting in poor generalization, where agents accumulate instance-specific noise rather than robust memories. To address this, we propose Unified Memory Extraction and Management (UMEM), a self-evolving agent framework that jointly optimizes a Large Language Model to simultaneous extract and manage memories. To mitigate overfitting to specific instances, we introduce Semantic Neighborhood Modeling and optimize the model with a neighborhood-level marginal utility reward via GRPO. This approach ensures memory generalizability by evaluating memory utility across clusters of semantically related queries. Extensive experiments across five benchmarks demonstrate that UMEM significantly outperforms highly competitive baselines, achieving up to a 10.67% improvement in multi-turn interactive tasks. Futhermore, UMEM maintains a monotonic growth curve during continuous evolution. Codes and models will be publicly released.
研究の動機と目的
- 自己進化エージェントにおける長期的な一般化可能メモリの必要性を動機づけ、メモリ抽出におけるインスタンス特有のノイズに対処する。
- メモリ抽出と管理を共同最適化する統一フレームワークを提案する。
- クロスタスク一般化を促進するための Semantic Neighborhood Modeling を導入する。
- Marginal Utility Reward を導入し、Group Relative Policy Optimization (GRPO) で学習する。
- 5つのベンチマークを横断して堅牢な自己進化とクロス・タスクの利得を示す。
提案手法
- 凍結されたエージェント・エグゼキュータ、外部メモリ・バンク、学習可能な Mem-Optimizer の三成分 UMEM アーキテクチャを導入する。
- Semantic Neighborhood Modeling を実装して、タスク間のバリエーションを生む意味的に関連するクエリをクラスタリングする。
- 意味的近傍に対して評価される Marginal Utility Reward を定義し、メモリ更新を導ぐ。
- Mem-Optimizer を GRPO で訓練し、抽出と管理を共同最適化する。
- 訓練中にメモリ・バンクを継続的に更新する Online Memory Evolution を適用する。

実験結果
リサーチクエスチョン
- RQ1メモリ抽出と管理の共同最適化は、意味的に関連するタスク間でメモリの一般化を改善するか。
- RQ2Semantic Neighborhood Modeling はインスタンス特有のノイズを低減し、タスク間で堅牢なメモリ有用性を促進するか。
- RQ3Marginal Utility Reward と GRPO は抽出されたメモリを管理ポリシーと整合させるのにどれくらい効果的か。
- RQ4訓練中のメモリのオンライン進化は、より安定でスケーラブルな自己進化性能を生み出すか。
主な発見
- UMEM は ReMem や Memp のようなベースラインを、単一ターン推論とマルチターン実体タスクの両方で5つのベンチマークにおいて上回る。
- 抽出と管理の共同最適化は、いずれかを独立に最適化するよりも効果的であり、結合設計の妥当性を検証する。
- Semantic Neighborhood Modeling と Marginal Utility Reward(GRPO 経由)は、意味的に関連するクエリへの一般化を向上させる。
- UMEM はエポックを跨ぐ継続的自己進化において単調な成長と頑健性を示す。
- より強力なエグゼクタ(例:GPT-5.1、Gemini-2.5-Flash) は UMEM の利得を拡大し、ポリシーモデルのスケーリング(4B まで)でさらなる改善をもたらす。
- テスト時の自己進化は、パフォーマンスの持続的な向上と、より少ないステップでの効率的な推論を示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。