QUICK REVIEW

[论文解读] Model-Based Reinforcement Learning with Adversarial Training for Online Recommendation

Xueying Bai, Jian Guan|arXiv (Cornell University)|Nov 10, 2019

Reinforcement Learning in Robotics参考文献 40被引用 42

一句话总结

引入 IRecGAN，一种基于模型的强化学习框架，使用对抗训练从离线数据学习用户行为和策略以用于在线推荐，提高样本效率并降低偏差。

ABSTRACT

Reinforcement learning is well suited for optimizing policies of recommender systems. Current solutions mostly focus on model-free approaches, which require frequent interactions with the real environment, and thus are expensive in model learning. Offline evaluation methods, such as importance sampling, can alleviate such limitations, but usually request a large amount of logged data and do not work well when the action space is large. In this work, we propose a model-based reinforcement learning solution which models user-agent interaction for offline policy learning via a generative adversarial network. To reduce bias in the learned model and policy, we use a discriminator to evaluate the quality of generated data and scale the generated rewards. Our theoretical analysis and empirical evaluations demonstrate the effectiveness of our solution in learning policies from the offline and generated data.

研究动机与目标

从稀疏的离线日志数据中激发学习推荐策略，以最大化长期的用户满意度。
提出一个显式对用户行为与交互进行建模的基于模型的 RL 框架。
通过对抗训练和奖励尺度化来缓解模型偏差和不稳定的策略更新。
证明在偏差控制方面的理论好处以及相对于基线的经验效率。

提出的方法

将环境建模为与用户行为模型 U 和参与者 A 互动以生成推荐序列。
使用循环神经网络表示用户状态 s^u_t 和代理状态 s^a_t，并给出基于 softmax 的点击和奖励预测（Eq. 1–2）。
通过离线数据的最大似然来学习用户模型 U，联合预测点击和奖励（Eq. 3）。
对代理 A 应用策略梯度（REINFORCE），使用离线数据以及生成数据（g）来更新策略（Eq. 9–10）。
引入判别器 D 来区分真实序列与生成序列，并利用其输出来 (i) 使用户模型去偏置（de bias）以及 (ii) 对生成奖励进行尺度化，从而实现对抗训练（Eq. 5–8）。
通过蒙特卡洛滚动计算部分序列的序列生成分数 q_D，以指导对 U 和 A 的生成/评估（Eq. 6）。

实验结果

研究问题

RQ1离线数据是否能够通过基于模型的 RL 框架有效地用于学习在线推荐的高质量策略？
RQ2对抗训练是否在离线到在线设置中降低了学习到的用户模型的偏差并改善策略学习？
RQ3将判别器用于对生成奖励进行尺度化如何影响价值估计和策略更新的稳定性？
RQ4将离线数据与生成数据相结合对策略性能和样本效率有何影响？
RQ5与基于模型的无模型基线及其他离线评估方法在仿真环境中的相对表现如何？

主要发现

IRecGAN 在仿真在线评估中实现了更好的样本效率，并且在与基线的比较中表现出竞争力甚至更优。
对抗训练帮助用户模型 U 捕捉真实数据模式，降低偏差并稳定策略学习。
基于判别器的奖励尺度化降低了生成数据的价值估计偏差，从而提升策略梯度。
将离线数据与生成样本相结合在在线交互成本较高时能够实现有效学习。
代理更新受序列生成目标的启发，令生成序列与真实数据分布对齐，在各种数据记录策略下达到或超过基线。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。