[论文解读] Deep Reinforcement Learning based Recommendation with Explicit User-Item Interactions Modeling
本论文将推荐建模为一个序列决策过程,并使用带有一个状态表示模块的 Actor-Critic DRL 框架(DRR),该模块显式建模用户-物品交互,以同时优化即时奖励和长期奖励。
Recommendation is crucial in both academia and industry, and various techniques are proposed such as content-based collaborative filtering, matrix factorization, logistic regression, factorization machines, neural networks and multi-armed bandits. However, most of the previous studies suffer from two limitations: (1) considering the recommendation as a static procedure and ignoring the dynamic interactive nature between users and the recommender systems, (2) focusing on the immediate feedback of recommended items and neglecting the long-term rewards. To address the two limitations, in this paper we propose a novel recommendation framework based on deep reinforcement learning, called DRR. The DRR framework treats recommendation as a sequential decision making procedure and adopts an "Actor-Critic" reinforcement learning scheme to model the interactions between the users and recommender systems, which can consider both the dynamic adaptation and long-term rewards. Furthermore, a state representation module is incorporated into DRR, which can explicitly capture the interactions between items and users. Three instantiation structures are developed. Extensive experiments on four real-world datasets are conducted under both the offline and online evaluation settings. The experimental results demonstrate the proposed DRR method indeed outperforms the state-of-the-art competitors.
研究动机与目标
- 将建模推荐视为一个动态、序列化的决策过程,而非静态过程。
- 将长期奖励纳入推荐,超越即时反馈。
- 开发一个显式的状态表示模块来捕捉用户-物品交互。
- 提出三种状态表示的实例化方法,以有效建模交互。
- 在真实世界数据集上证明 DRR 相较于最先进基线的优越性。
提出的方法
- 将推荐建模为一个 MDP,状态为用户历史,动作为连续排序向量。
- 使用 Actor-Critic 框架 (DDPG),其中 Actor 输出一个排序参数来为项目打分。
- 使用 Critic 网络估计状态-动作对的 Q 值并引导 Actor 更新。
- 引入一个显式捕捉用户-物品交互的状态表示模块。
- 提供三种 DRR 状态结构(DRR-p, DRR-u, DRR-ave)来建模成对交互以及用户-物品交互。
- 使用经验回放和目标网络进行训练;使用离线日志或环境仿真器进行评估。
实验结果
研究问题
- RQ1DRR 是否能够有效建模推荐中的动态、序列化的用户偏好?
- RQ2在状态表示中显式建模用户-物品交互是否相比基线提升性能?
- RQ3不同的 DRR 状态结构(DRR-p, DRR-u, DRR-ave)在捕捉交互方面有何不同?
- RQ4DRR 方法是否在真实世界数据集上优于传统推荐系统和现有的基于 RL 的方法?
- RQ5离线和基于仿真的在线评估是否能揭示长期奖励在推荐中的好处?
主要发现
- DRR 在离线评估(Precision@k, NDCG@k)和模拟在线奖励方面超越最先进的基线。
- 三种 DRR 状态结构(DRR-p, DRR-u, DRR-ave)显式地以对交互为重点建模用户-物品交互,且对项目排序和用户影响的强调各有不同。
- 该框架使用带有优先级经验回放和目标网络的 Actor-Critic(DDPG)方法。
- 状态表示模块从近期的正向交互和物品嵌入中学习一个总结的用户状态,以生成排序行动。
- 在四个真实世界数据集上的评估表明所提方法优于竞争方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。