[논문 리뷰] MAGMA: A Multi-Graph based Agentic Memory Architecture for AI Agents
MAGMA는 AI 에이전트용 다중 그래프 관계 분리 메모리(의미적, 시간적, 인과적, 엔티티)를 도입하고 정책 안내 그래프 탐색으로 증거를 검색하며, 기존 MAG 시스템보다 더 긴 시점의 추론을 더 낮은 대기시간으로 달성한다.
Memory-Augmented Generation (MAG) extends Large Language Models with external memory to support long-context reasoning, but existing approaches largely rely on semantic similarity over monolithic memory stores, entangling temporal, causal, and entity information. This design limits interpretability and alignment between query intent and retrieved evidence, leading to suboptimal reasoning accuracy. In this paper, we propose MAGMA, a multi-graph agentic memory architecture that represents each memory item across orthogonal semantic, temporal, causal, and entity graphs. MAGMA formulates retrieval as policy-guided traversal over these relational views, enabling query-adaptive selection and structured context construction. By decoupling memory representation from retrieval logic, MAGMA provides transparent reasoning paths and fine-grained control over retrieval. Experiments on LoCoMo and LongMemEval demonstrate that MAGMA consistently outperforms state-of-the-art agentic memory systems in long-horizon reasoning tasks.
연구 동기 및 목표
- 긴 시점 추론을 위한 MAG 시스템의 단일 메모리 한계를 해결한다.
- 의미, 시간, 인과, 엔티티 관계를 분리하는 다중 그래프 메모리 기 substrate를 제안한다.
- 관계 뷰를 효율적으로 탐색하기 위한 적응형 의도 인식 검색 정책을 개발한다.
- 빠른 흡수와 비동기적 합치를 갖는 듀얼 스트림 워크플로우로 메모리 흡수와 추론을 분리한다.
- LoCoMo와 LongMemEval 벤치마크에서 최첨단 기준선보다 개선을 시연한다.
제안 방법
- 메모리를 네 가지 직교 관계 그래프(의미, 시간, 인과, 엔티티)로 구성된 시간 변화 방향의 다중 그래프로 표현한다.
- 계층적이고 의도 인식된 쿼리 라우터를 사용해 쿼리를 분해하고 여러 뷰에 걸쳐 검색을 안내한다.
- 그래프 탐색을 위한 구조 정렬과 의미 유사성을 융합하는 동적 전이 점수 S(nj|ni,q)를 계산한다.
- 검색된 부분 그래프를 구조화되고 출처를 뒷받침하는 서술 프롬프트로 직렬화해 환각을 줄인다.
- 빠른 신경 시냅스 흡수와 비동기적 구조 합치를 갖는 듀얼 스트림 메모리 진화를 구현한다.
실험 결과
연구 질문
- RQ1다중 그래프 메모리 기 substrate가 단일 그래프 또는 의미 기반 MAG 시스템과 비교하여 긴 시점 추론을 향상시킬 수 있는가?
- RQ2적응형 의도 인식 순회 정책이 긴 컨텍스트 작업에서 검색 효율성과 근거 제시 품질을 향상시키는가?
- RQ3메모리 흡수와 합치를 분리함으로써 반응성을 유지하면서 관계 구조를 심화시킬 수 있는가?
- RQ4MAGMA가 긴 컨텍스트 벤치마크(LoCoMo, LongMemEval)에서 최첨단 기준선에 비해 어떤 성능을 보이는가?
주요 결과
| 방법 | 다중 경유 | 시간적 | 오픈 도메인 | 단일 홉 | 적대적 | 종합 |
|---|---|---|---|---|---|---|
| Full Context | 0.468 | 0.562 | 0.486 | 0.630 | 0.205 | 0.481 |
| A-MEM | 0.495 | 0.474 | 0.385 | 0.653 | 0.616 | 0.580 |
| MemoryOS | 0.552 | 0.422 | 0.504 | 0.674 | 0.428 | 0.553 |
| Nemori | 0.569 | 0.649 | 0.485 | 0.764 | 0.325 | 0.590 |
| MAGMA (ours) | 0.528 | 0.650 | 0.517 | 0.776 | 0.742 | 0.700 |
- MAGMA는 LoCoMo에서 평가된 방법들 중 전체 판단 점수 0.700으로 최고를 기록하며 Full Context, A-MEM, MemoryOS, Nemori를 앞섰다.
- MAGMA는 강한 시간적 추론과 적대적 강건성을 보이며 판단 점수는 각각 0.650, 0.742이다.
- LongMemEval에서 MAGMA는 평균 정확도 61.2%로 최고를 달성했고, 쿼리당 토큰 수는 Full Context보다 훨씬 적은 0.7k–4.2k를 사용한다.
- 적응형 탐색과 듀얼 스트림 설계 덕분에 기준선들 중 최저 쿼리 지연 시간 1.47초와 경쟁력 있는 토큰 비용 3.37k를 보인다.
- 걸러내기(Ablation) 분석에 따르면 순회 정책이 결정적이며 인과/시간 구조가 상당한 이득에 기여한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.