[논문 리뷰] Recurrent Preference Memory for Efficient Long-Sequence Generative Recommendation
요약: 이 논문은 Lifelong 사용자 이력을 압축하여 컴팩트한 메모리 토큰으로 만들고, 자기참조 교사 강제(self-referential teacher forcing)을 통한 병렬 학습을 가능하게 하는 토큰 기반 선호도 메모리 프레임워크 Rec2PM을 제시합니다. 이를 통해 전체 시퀀스 모델 대비 추론이 빨라지고 정확도가 강력하게 유지됩니다.
Generative recommendation (GenRec) models typically model user behavior via full attention, but scaling to lifelong sequences is hindered by prohibitive computational costs and noise accumulation from stochastic interactions. To address these challenges, we introduce Rec2PM, a framework that compresses long user interaction histories into compact Preference Memory tokens. Unlike traditional recurrent methods that suffer from serial training, Rec2PM employs a novel self-referential teacher-forcing strategy: it leverages a global view of the history to generate reference memories, which serve as supervision targets for parallelized recurrent updates. This allows for fully parallel training while maintaining the capability for iterative updates during inference. Additionally, by representing memory as token embeddings rather than extensive KV caches, Rec2PM achieves extreme storage efficiency. Experiments on large-scale benchmarks show that Rec2PM significantly reduces inference latency and memory footprint while achieving superior accuracy compared to full-sequence models. Analysis reveals that the Preference Memory functions as a denoising Information Bottleneck, effectively filtering interaction noise to capture robust long-term interests.
연구 동기 및 목표
- 전체 주의 GenRec의 확장성 및 Lifelong 사용자 이력의 노이즈 이슈를 해결한다.
- 긴 이력을 Preference Memory 토큰으로 압축하는 메모리 증가 프레임워크를 제안한다.
- 반복 추론 업데이트를 허용하면서 순환 메모리 업데이트를 병렬 학습한다.
- 저장 및 지연 효율이 높은 스트리밍 업데이트를 경쟁력 있는 정확도와 함께 보여준다.
제안 방법
- 각 사용자의 메모리 슬롯이라고 하는 소수의 학습 가능한 토큰 임베딩 세트를 메모리로 표현한다.
- 메모리 인코더를 사용하여 글로벌 학습 메모리 질의 Q_mem를 통해 역사적 맥락을 원자적 메모리 상태 m으로 압축한다.
- 두 가지 메모리 업데이트 모드: Overwriting(고정 크기 메모리)와 Appending(확장 가능 메모리).
- 두 단계 병렬 학습 스킴 도입: (i) 원시 이력에서의 글로벌 참조 메모리 생성; (ii) 일관성 손실(L_con)을 가진 참조 메모리로 감독되는 로컬 업데이트 병렬 수행.
- 統一된 아키텍처는 Memory Encoder와 Generative Decoder를 공유하여 한 번의 순전파에서 M_{k-1}와 현재 세그먼트 S_k를 처리한다.
- 훈련 목표는 다음 아이템 예측을 위한 autoregressive 손실 L_AR와 메모리 일관성 손실 L_con를 결합: L = L_AR + lambda * L_con
실험 결과
연구 질문
- RQ1지속적인 사용자 이력을 일관된 메모리 토큰으로 압축하되 예측 정확도를 희생하지 않는 방법은 무엇인가?
- RQ2직렬 역전파를 통해 시간적으로 학습하는 대신 메모리 업데이트를 병렬로 학습할 수 있는가?
- RQ3자기참조 교사 강제 목표가 훈련을 안정시키면서 순환 메모리 업데이트의 효과를 유지하는가?
- RQ4Rec2PM은 대기 시간, 저장소, 정확도 측면에서 전체 시퀀스 주의 및 KV-cache 기반 메모리와 어떻게 비교되는가?
주요 결과
| 방법 | SASRec H@1 | SASRec H@10 | SASRec H@50 | SASRec N@10 | SASRec N@50 | HSTU H@1 | HSTU H@10 | HSTU H@50 | HSTU N@10 | HSTU N@50 |
|---|---|---|---|---|---|---|---|---|---|---|
| Short/SASRec | 14.10 | 40.96 | 57.59 | 26.68 | 30.39 | 13.94 | 41.67 | 59.08 | 26.86 | 28.88 |
| Short/HSTU | 13.94 | 41.67 | 59.08 | 26.86 | 28.88 | 14.24 | 42.77 | 60.37 | 27.47 | 31.41 |
| Short/Tok-Serial-O | 14.57 | 42.56 | 59.66 | 27.62 | 31.46 | 14.65 | 43.75 | 61.03 | 28.20 | 32.07 |
| Short/Tok-Serial-A | 14.49 | 42.56 | 59.70 | 27.58 | 31.43 | 14.45 | 43.60 | 61.02 | 28.01 | 31.91 |
| Short/KV-Mask-O | 14.73 | 42.32 | 59.31 | 27.60 | 31.41 | 14.56 | 43.64 | 61.07 | 28.08 | 32.00 |
| Short/KV-Mask-A | 14.72 | 42.35 | 59.37 | 27.56 | 31.37 | 14.64 | 43.59 | 60.88 | 28.10 | 31.97 |
| Short/Rec2PM-O | 14.79 | 43.12 | 59.92 | 28.05 | 31.82 | 15.04 | 44.20 | 61.23 | 28.66 | 32.48 |
| Short/Rec2PM-A | 14.73 | 42.76 | 59.74 | 27.81 | 31.62 | 14.87 | 44.13 | 61.16 | 28.50 | 32.31 |
| Full/SASRec | 14.43 | 42.40 | 59.31 | 27.44 | 31.23 | 14.24 | 42.77 | 60.37 | 27.47 | 31.41 |
| Full/HSTU | 14.24 | 42.77 | 60.37 | 27.47 | 31.41 | 14.24 | 42.77 | 60.37 | 27.47 | 31.41 |
| Full/Tok-Serial-O | 14.57 | 42.56 | 59.66 | 27.62 | 31.46 | 14.65 | 43.75 | 61.03 | 28.20 | 32.07 |
| Full/Tok-Serial-A | 14.45 | 43.60 | 61.02 | 28.01 | 31.91 | 14.45 | 43.60 | 61.02 | 28.01 | 31.91 |
| Full/KV-Mask-O | 14.56 | 43.64 | 61.07 | 28.08 | 32.00 | 14.56 | 43.64 | 61.07 | 28.08 | 32.00 |
| Full/KV-Mask-A | 14.64 | 43.59 | 60.88 | 28.10 | 31.97 | 14.64 | 43.59 | 60.88 | 28.10 | 31.97 |
| Full/Rec2PM-O | 15.04 | 44.20 | 61.23 | 28.66 | 32.48 | 14.24 | 42.77 | 60.37 | 27.47 | 31.41 |
| Full/Rec2PM-A | 14.87 | 44.13 | 61.16 | 28.50 | 32.31 | 14.87 | 44.13 | 61.16 | 28.50 | 32.31 |
- Rec2PM은 전체 시퀀스 기준선과 비교해 비슷하거나 우수한 정확도를 유지하면서도 대기 시간과 저장소를 크게 줄인다.
- 메모리는 노이즈 제거 정보 병 bottleneck으로 작동하여 확률적 노이즈를 걸러내고 긴 이력에서의 일반화를 향상시킨다.
- 자기참조 교사 강제에 의한 병렬 학습은 학습을 안정시키고 직렬 토큰-메모리 또는 KV-캐시 기준선보다 우수하다.
- 대부분의 설정에서 Overwriting 메모리 업데이트가 Appending 업데이트를 능가하여 더 강력한 병목 효과를 지원한다.
- 4개의 메모리 슬롯만으로도 Rec2PM은 강한 성능을 유지하며 슬롯 수가 늘어나면 예측 가능하게 확장된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.