[論文レビュー] Recurrent Preference Memory for Efficient Long-Sequence Generative Recommendation
本論文は、 lifelong ユーザ履歴をコンパクトな memory token に圧縮し、自己参照的教師強制により並列訓練を可能にするトークンベースの Preference Memory フレームワーク Rec2PM を提案。推論の高速化と全シーケンスモデルに対する強い精度を実現。
Generative recommendation (GenRec) models typically model user behavior via full attention, but scaling to lifelong sequences is hindered by prohibitive computational costs and noise accumulation from stochastic interactions. To address these challenges, we introduce Rec2PM, a framework that compresses long user interaction histories into compact Preference Memory tokens. Unlike traditional recurrent methods that suffer from serial training, Rec2PM employs a novel self-referential teacher-forcing strategy: it leverages a global view of the history to generate reference memories, which serve as supervision targets for parallelized recurrent updates. This allows for fully parallel training while maintaining the capability for iterative updates during inference. Additionally, by representing memory as token embeddings rather than extensive KV caches, Rec2PM achieves extreme storage efficiency. Experiments on large-scale benchmarks show that Rec2PM significantly reduces inference latency and memory footprint while achieving superior accuracy compared to full-sequence models. Analysis reveals that the Preference Memory functions as a denoising Information Bottleneck, effectively filtering interaction noise to capture robust long-term interests.
研究の動機と目的
- 全注意 GenRec の長期利用履歴に対するスケーラビリティとノイズの問題に対処する。
- 長い履歴を Preference Memory トークンへ圧縮するメモリ拡張フレームワークを提案する。
- 反復推論更新を許容しつつ、リカレントメモリ更新を並列訓練できるようにする。
- 競合する精度を維持しつつ、ストレージとレイテンシを抑えたストリーミング更新を実証する。
提案手法
- ユーザごとに学習可能なトークン埋め込み(メモリスロット)を少数の集合として表現する。
- メモリエンコーダを用いて歴史的文脈を原子状のメモリ状態 m に圧縮する。グローバルに学習された memory クエリ Q_mem による圧縮。
- 2 通りのメモリ更新モード: 上書き(固定サイズのメモリ)と追加(拡張可能なメモリ)。
- 2 段階の並列訓練方式を導入: (i) 生データからのグローバルリファレンスメモリ生成; (ii) 参照メモリと整合性損失 L_con を用いた局所更新を並列に監督。
- 統一アーキテクチャは Memory Encoder と Generative Decoder を共有し、M_{k-1} と現在のセグメント S_k を単一のフォワード伝播で処理。
- 訓練目的は、次アイテム予測の自己回帰損失 L_AR とメモリ整合性損失 L_con を組み合わせて最適化し、L = L_AR + λ * L_con(λ はハイパーパラメータ)とする。
実験結果
リサーチクエスチョン
- RQ1長期履歴を圧縮しても予測精度を損なわずにコンパクトな memory tokens に変換できるか。
- RQ2メモリ更新を時間的バックプロパゲーションの直列ではなく並列で訓練できるか。
- RQ3自己参照的教師強制目的はトレーニングを安定化しつつ、リカレントメモリ更新の効果を維持できるか。
- RQ4Rec2PM は全シーケンスの注意機構や KV-キャッシュベースのメモリと比較して、レイテンシ・ストレージ・精度の点でどう差が出るか。
主な発見
| Method | SASRec H@1 | SASRec H@10 | SASRec H@50 | SASRec N@10 | SASRec N@50 | HSTU H@1 | HSTU H@10 | HSTU H@50 | HSTU N@10 | HSTU N@50 |
|---|---|---|---|---|---|---|---|---|---|---|
| Short/SASRec | 14.10 | 40.96 | 57.59 | 26.68 | 30.39 | 13.94 | 41.67 | 59.08 | 26.86 | 28.88 |
| Short/HSTU | 13.94 | 41.67 | 59.08 | 26.86 | 28.88 | 14.24 | 42.77 | 60.37 | 27.47 | 31.41 |
| Short/Tok-Serial-O | 14.57 | 42.56 | 59.66 | 27.62 | 31.46 | 14.65 | 43.75 | 61.03 | 28.20 | 32.07 |
| Short/Tok-Serial-A | 14.49 | 42.56 | 59.70 | 27.58 | 31.43 | 14.45 | 43.60 | 61.02 | 28.01 | 31.91 |
| Short/KV-Mask-O | 14.73 | 42.32 | 59.31 | 27.60 | 31.41 | 14.56 | 43.64 | 61.07 | 28.08 | 32.00 |
| Short/KV-Mask-A | 14.72 | 42.35 | 59.37 | 27.56 | 31.37 | 14.64 | 43.59 | 60.88 | 28.10 | 31.97 |
| Short/Rec2PM-O | 14.79 | 43.12 | 59.92 | 28.05 | 31.82 | 15.04 | 44.20 | 61.23 | 28.66 | 32.48 |
| Short/Rec2PM-A | 14.73 | 42.76 | 59.74 | 27.81 | 31.62 | 14.87 | 44.13 | 61.16 | 28.50 | 32.31 |
| Full/SASRec | 14.43 | 42.40 | 59.31 | 27.44 | 31.23 | 14.24 | 42.77 | 60.37 | 27.47 | 31.41 |
| Full/HSTU | 14.24 | 42.77 | 60.37 | 27.47 | 31.41 | 14.24 | 42.77 | 60.37 | 27.47 | 31.41 |
| Full/Tok-Serial-O | 14.57 | 42.56 | 59.66 | 27.62 | 31.46 | 14.65 | 43.75 | 61.03 | 28.20 | 32.07 |
| Full/Tok-Serial-A | 14.45 | 43.60 | 61.02 | 28.01 | 31.91 | 14.45 | 43.60 | 61.02 | 28.01 | 31.91 |
| Full/KV-Mask-O | 14.56 | 43.64 | 61.07 | 28.08 | 32.00 | 14.56 | 43.64 | 61.07 | 28.08 | 32.00 |
| Full/KV-Mask-A | 14.64 | 43.59 | 60.88 | 28.10 | 31.97 | 14.64 | 43.59 | 60.88 | 28.10 | 31.97 |
| Full/Rec2PM-O | 15.04 | 44.20 | 61.23 | 28.66 | 32.48 | 14.24 | 42.77 | 60.37 | 27.47 | 31.41 |
| Full/Rec2PM-A | 14.87 | 44.13 | 61.16 | 28.50 | 32.31 | 14.87 | 44.13 | 61.16 | 28.50 | 32.31 |
- Rec2PM は全シーケンスベースの基準と同等またはそれを上回る精度を達成しつつ、レイテンシとストレージを大幅に削減する。
- メモリはノイズを除去する情報ボトルネックとして機能し、確率的ノイズをフィルタリングして長期履歴での一般化を向上させる。
- 自己参照的教師強制による並列訓練は学習を安定化させ、直列に訓練したトークン-メモリや KV-キャッシュ基準を上回る。
- ほとんどの設定で上書き型メモリ更新が追加型を上回り、ボトルネック効果を強く示す。
- Rec2PM はメモリスロット数が 4 だけでも強い性能を維持し、スロット数の増加とともに規則的にスケールする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。