[논문 리뷰] UMEM: Unified Memory Extraction and Management Framework for Generalizable Memory
UMEM은 자가 진화하는 LLM 에이전트를 위한 기억 추출 및 관리의 일반화 가능성을 높이기 위해 시맨틱 이웃 모델링과 marginal utility 보상을 갖춘 GRPO를 사용하여 여러 쿼리에 걸쳐 기억을 일반화하고, 다회 견학 및 구현형 작업을 개선합니다.
Self-evolving memory serves as the trainable parameters for Large Language Models (LLMs)-based agents, where extraction (distilling insights from experience) and management (updating the memory bank) must be tightly coordinated. Existing methods predominately optimize memory management while treating memory extraction as a static process, resulting in poor generalization, where agents accumulate instance-specific noise rather than robust memories. To address this, we propose Unified Memory Extraction and Management (UMEM), a self-evolving agent framework that jointly optimizes a Large Language Model to simultaneous extract and manage memories. To mitigate overfitting to specific instances, we introduce Semantic Neighborhood Modeling and optimize the model with a neighborhood-level marginal utility reward via GRPO. This approach ensures memory generalizability by evaluating memory utility across clusters of semantically related queries. Extensive experiments across five benchmarks demonstrate that UMEM significantly outperforms highly competitive baselines, achieving up to a 10.67% improvement in multi-turn interactive tasks. Futhermore, UMEM maintains a monotonic growth curve during continuous evolution. Codes and models will be publicly released.
연구 동기 및 목표
- 자가 진화하는 에이전트에서 일반화 가능한 장기 기억의 필요성을 제시하고 기억 추출의 인스턴스 특유 노이즈를 다룬다.
- 기억 추출과 관리를 공동 최적화하는 unified 프레임워크를 제안한다.
- Cross-task 일반화를 촉진하기 위해 시맨틱 네이버후드 모델링을 도입한다.
- Marginal Utility Reward를 개발하고 GRPO로 학습한다.
- 다섯 가지 벤치마크에서 강인한 자가 진화와 교차 작업 이점을 입증한다.
제안 방법
- 고정된 에이전트 실행기, 외부 기억 은행, 학습 가능한 Mem-Optimizer의 3-컴포넌트 UMEM 아키텍처를 도입한다.
- Cross-task 차이를 위한 semantically 관련 쿼리를 클러스터링하는 시맨틱 네이버후드 모델링을 구현한다.
- 의미론적 이웃에 걸쳐 평가되는 Marginal Utility Reward를 정의하여 기억 업데이트를 유도한다.
- Mem-Optimizer를 GRPO로 학습시켜 추출과 관리를 함께 최적화한다.
- 학습 중 기억 은행을 지속적으로 업데이트하기 위해 Online Memory Evolution을 적용한다.

실험 결과
연구 질문
- RQ1기억 추출과 관리의 공동 최적화가 의미론적으로 관련된 작업들 간의 기억 일반화를 개선할 수 있는가?
- RQ2시맨틱 네이버후드 모델링이 인스턴스 특유의 노이즈를 줄이고 작업 간 강인한 기억 유틸리티를 촉진하는가?
- RQ3Marginal Utility Reward가 GRPO를 통해 추출된 기억을 관리 정책과 정렬하는 데 얼마나 효과적인가?
- RQ4훈련 중 기억의 온라인 진화가 더 안정적이고 확장 가능한 자가 진화 성능을 낳는가?
주요 결과
- UMEM은 단일 턴 추론과 다중 턴 구현형 작업에서 ReMem 및 Memp와 같은 기준선보다 다섯 가지 벤치마크에서 우수한 성능을 보인다.
- 추출과 관리의 공동 최적화가 각각을 독립적으로 최적화하는 것보다 더 효과적이며 커플링된 설계를 검증한다.
- 시맨틱 네이버후드 모델링과 GRPO를 통한 Marginal Utility Reward가 의미론적으로 관련된 쿼리로의 일반화를 향상시킨다.
- UMEM은 에포크 전반에 걸쳐 지속적인 자가 진화 중 단조로운 증가와 강건성을 보인다.
- 강한 실행기(예: GPT-5.1, Gemini-2.5-Flash)가 UMEM의 이점을 증폭시키며 정책 모델 확장(4B까지)으로 추가 개선이 나타난다.
- 테스트 타임 자가 진화는 더 적은 단계로도 지속적인 성능 향상과 효율적인 추론을 보여준다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.