QUICK REVIEW

[论文解读] Reinforcement Learning for Slate-based Recommender Systems: A Tractable Decomposition and Practical Methodology

Eugene Ie, Vihan Jain|arXiv (Cornell University)|May 29, 2019

Recommender Systems and Techniques参考文献 68被引用 23

一句话总结

该论文提出了SlateQ，一种用于基于展示位推荐系统强化学习的可处理分解方法，在合理的用户选择假设下，通过将展示位级长期价值（LTV）分解为单个物品的LTV，实现了长期价值优化。该方法与时序差分学习相结合，通过线性规划实现可扩展的、多项式时间的展示位优化，相较于短视基线，在实际YouTube实验中显著提升了用户参与度。

ABSTRACT

Most practical recommender systems focus on estimating immediate user engagement without considering the long-term effects of recommendations on user behavior. Reinforcement learning (RL) methods offer the potential to optimize recommendations for long-term user engagement. However, since users are often presented with slates of multiple items - which may have interacting effects on user choice - methods are required to deal with the combinatorics of the RL action space. In this work, we address the challenge of making slate-based recommendations to optimize long-term value using RL. Our contributions are three-fold. (i) We develop SLATEQ, a decomposition of value-based temporal-difference and Q-learning that renders RL tractable with slates. Under mild assumptions on user choice behavior, we show that the long-term value (LTV) of a slate can be decomposed into a tractable function of its component item-wise LTVs. (ii) We outline a methodology that leverages existing myopic learning-based recommenders to quickly develop a recommender that handles LTV. (iii) We demonstrate our methods in simulation, and validate the scalability of decomposed TD-learning using SLATEQ in live experiments on YouTube.

研究动机与目标

解决基于展示位的推荐系统中强化学习（RL）的组合动作空间挑战。
在合理的用户选择假设下，通过将展示位级LTV分解为单个物品LTV，实现有效的长期价值（LTV）优化。
开发一种实用方法，将强化学习集成到现有短视推荐系统中，而无需重建基础设施。
在YouTube等大规模生产环境证明所提强化学习框架的可扩展性与有效性。

提出的方法

提出SlateQ，一种在对用户选择行为施加温和假设的前提下，将展示位的长期价值（LTV）表示为其中各物品LTV函数的分解方法。
将时序差分（TD）学习和Q-learning方法适配至基于物品LTV估计值的计算，实现高效泛化与探索。
将展示位优化问题简化为线性规划（LP）问题，实现多项式时间求解，并评估了如top-k和贪心方法等实用近似方法。
提出一种方法，通过重用现有短视推荐系统生成的物品级LTV预测值作为强化学习流程的输入，实现从短视推荐系统启动强化学习。
采用两步约简法进行展示位优化：首先转化为分数背包问题，再转化为线性规划（LP），从而在Q-learning中实现高效的策略改进。
通过仿真和YouTube上的实际A/B实验验证该方法，将LTV优化策略与短视参与度优化基线进行对比。

实验结果

研究问题

RQ1在合理的用户选择假设下，展示位的长期价值能否被有效分解为单个物品长期价值的可处理函数？
RQ2时序差分和Q-learning能否在保持可扩展性与性能的前提下，适配至基于物品LTV估计值的计算？
RQ3在SlateQ分解框架下，组合式展示位优化问题能否通过基于LP或启发式方法在多项式时间内求解？
RQ4在生产系统中，现有短视推荐系统在多大程度上可被重用于启动基于强化学习的长期价值优化？
RQ5在真实部署中，所提出的基于强化学习的展示位推荐系统是否显著优于短视的、以即时参与度为目标的基线，从而提升长期用户参与度？

主要发现

实际YouTube实验表明，与短视基线（MYOP-TS）相比，使用LTV优化的SlateQ模型在整体用户参与度上实现了具有统计显著性且一致的提升。
接收LTV优化模型推荐的用户，其会话参与时间更长，表明长期用户满意度得到改善。
参与度增益的分布主要集中于排名靠前的展示位，前三位位置贡献了约95%的总参与度。
尽管第10位的事件数量较少，但模型仍显示出可测量的、尽管统计上较嘈杂的参与度提升，表明在更高位置也具备鲁棒性。
基于LP的优化方法实现了最优的展示位选择，而top-k和贪心近似方法在实践中表现良好，即使缺乏理论保证。
该方法通过重用现有短视推荐系统基础设施，实现了强化学习的快速部署，证明了其在大规模系统中的实际可行性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。