[논문 리뷰] From Lossy to Verified: A Provenance-Aware Tiered Memory for Agents
TierMem은 장기 지평의 에이전트를 위한 출처 연계된 이중 계층 메모리를 도입한다. 기본적으로 빠른 요약으로 작동하지만 필요 시 불변의 원시 로그로 에스컬레이션하고, 검증된 발견을 다시 작성하여 향후 효율성을 높인다.
Long-horizon agents often compress interaction histories into write-time summaries. This creates a fundamental write-before-query barrier: compression decisions are made before the system knows what a future query will hinge on. As a result, summaries can cause unverifiable omissions -- decisive constraints (e.g., allergies) may be dropped, leaving the agent unable to justify an answer with traceable evidence. Retaining raw logs restores an authoritative source of truth, but grounding on raw logs by default is expensive: many queries are answerable from summaries, yet raw grounding still requires processing far longer contexts, inflating token consumption and latency. We propose TierMem, a provenance-linked framework that casts retrieval as an inference-time evidence allocation problem. TierMem uses a two-tier memory hierarchy to answer with the cheapest sufficient evidence: it queries a fast summary index by default, and a runtime sufficiency router Escalates to an immutable raw-log store only when summary evidence is insufficient. TierMem then writes back verified findings as new summary units linked to their raw sources. On LoCoMo, TierMem achieves 0.851 accuracy (vs.0.873 raw-only) while reducing input tokens by 54.1\% and latency by 60.7%.
연구 동기 및 목표
- 긴 지평 에이전트 메모리에서의 사전 조회 전 쓰기(write-before-query) 장애와 그것이 검증 가능성에 미치는 영향을 규명한다.
- 출처 연결을 갖춘 이중 계층 메모리(요약 + 불변 원시 로그)를 제안하여 선택적 에스컬레이션을 가능하게 한다.
- 요약으로 충분한지 vs 원시 로그로의 에스컬레이션을 결정하는 경량 라우터를 개발한다.
- 원시 액세스 비용을 상쇄하기 위해 요약 계층에 검증된 발견을 다시 기록하는 온라인 통합을 가능하게 한다.
제안 방법
- 이중 계층 메모리: Tier-1 출처-연계된 요약과 안정적인 페이지 ID를 가진 Tier-2 불변 원시 로그.
- 추론 시점의 라우터 πθ가 각 쿼리에 대해 Answer(요약) 대 Escalate(Tier-2에서 근거 확보) 여부를 결정한다.
- 출처 가이드 에스컬레이션은 연결된 Tier-2 페이지를 우선시한다; 필요 시 제한된 다중 홉 원시 검색을 수행한다.
- 검증된 다시 기록은 추적 가능성을 유지하기 위해 Tier-1으로 근거를 다시 기록한다.
- 오라클로부터의 감독 신호(요약-전용 vs 원시-근거) 및 비용 인식 정렬(GRPO)로 라우터를 학습한다.
- 정확도, 효율성, 누락률을 측정하기 위해 LoCoMo 및 LongMemEval 벤치마크에서 평가한다.
실험 결과
연구 질문
- RQ1TierMem은 긴 지평 메모리 벤치마크에서 요약-전용 및 원시-전용 기준선에 비해 정확도-효율성 트레이드오프를 향상시키는가?
- RQ2경량 라우터가 증거 불충분을 신뢰할 수 있게 감지할 수 있으며 오버헤드는 무시할 만한가?
- RQ3출처 포인터가 에스컬레이션된 쿼리의 근거화 품질을 향상시키는가?
- RQ4온라인 통합이 Tier-1로 검증된 발견을 밀어넣어 원시 접근 비용을 시간에 걸쳐 상쇄하는가?
주요 결과
- LoCoMo에서 TierMem 라우터의 정확도는 0.851이고 원시-전용보다 0.873이며 입력 토큰은 54.1% 감소하고 지연은 60.7% 감소한다.
- 요약-전용 방법은 주목할 만한 검증 불가능 누락률(UOR 14.7%–23.3% on LoCoMo)을 보인다.
- LongMemEval에서 TierMem은 불충분한 사례를 원시 근거로 라우팅하여 요약 손실을 완화하고 요약-전용 기준선보다 더 나은 정확도를 유지한다.
- 연결된 출처 포인터는 에스컬레이션된 쿼리에 대해 더 높은 정확도를 산출한다(Linked 85.1% 대 No-Linked 83.6%의 제거 실험에서).
- 온라인 쓰기-백을 통한 통합은 재생 에포크에 걸쳐 저비용 경로 커버리지를 증가시켜 이후 쿼리의 평균 토큰 수와 지연을 감소시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.