QUICK REVIEW

[论文解读] Reinforcement Learning to Rank in E-Commerce Search Engine: Formalization, Analysis, and Application

Yujing Hu, Qing Da|arXiv (Cornell University)|Mar 2, 2018

Optimization and Search Problems参考文献 31被引用 37

一句话总结

本文提出一种基于强化学习的电商搜索排序方法，通过将多步搜索会话建模为搜索会话马尔可夫决策过程（SSMDP），捕捉排序步骤之间的序列依赖关系。该方法提出一种新型确定性策略梯度算法（DPG-FBE，带全备份估计的确定性策略梯度），有效降低奖励方差并提升策略学习效果，在仿真中实现超过40%的交易量提升，在淘宝的实际部署中实现30%的提升。

ABSTRACT

In e-commerce platforms such as Amazon and TaoBao, ranking items in a search session is a typical multi-step decision-making problem. Learning to rank (LTR) methods have been widely applied to ranking problems. However, such methods often consider different ranking steps in a session to be independent, which conversely may be highly correlated to each other. For better utilizing the correlation between different ranking steps, in this paper, we propose to use reinforcement learning (RL) to learn an optimal ranking policy which maximizes the expected accumulative rewards in a search session. Firstly, we formally define the concept of search session Markov decision process (SSMDP) to formulate the multi-step ranking problem. Secondly, we analyze the property of SSMDP and theoretically prove the necessity of maximizing accumulative rewards. Lastly, we propose a novel policy gradient algorithm for learning an optimal ranking policy, which is able to deal with the problem of high reward variance and unbalanced reward distribution of an SSMDP. Experiments are conducted in simulation and TaoBao search engine. The results demonstrate that our algorithm performs much better than online LTR methods, with more than 40% and 30% growth of total transaction amount in the simulation and the real application, respectively.

研究动机与目标

为解决现有排序学习方法将各排序步骤视为独立处理、忽略用户搜索会话中序列依赖关系的局限性。
将多步电商搜索正式建模为马尔可夫决策过程（SSMDP），定义状态空间、动作空间、奖励函数及状态转移动态。
从理论上证明在序列化搜索交互中，最大化累积奖励而非单步奖励的必要性与优势。
设计一种鲁棒的策略梯度算法（DPG-FBE），以应对SSMDP中高奖励方差与非均衡奖励分布的挑战。
在仿真与淘宝真实搜索系统上实证验证所提方法，证明其在性能上优于当前最先进排序学习方法。

提出的方法

将多步搜索会话正式建模为搜索会话马尔可夫决策过程（SSMDP），定义状态空间、动作空间、奖励函数及状态转移动态。
提出一种新型策略梯度算法——DPG-FBE（带全备份估计的确定性策略梯度），以在高方差、非均衡奖励环境中稳定训练过程。
通过全备份估计提升价值函数近似精度，更准确地整合未来奖励，从而降低策略更新的方差。
构建基于数据流的在线强化学习系统，采用并行在线执行与学习循环，利用日志中心与在线KV系统实现实时模型更新。
在执行网络中采用小规模深度神经网络（每隐藏层80和64个神经元）作为策略网络与评论家网络，确保生产环境中的低延迟推理。
将DPG-FBE算法集成至淘宝搜索系统，并与DDPG及离线LTR基线进行A/B测试。

实验结果

研究问题

RQ1将多步搜索会话建模为序列决策过程（SSMDP）是否能带来优于独立步骤建模的排序性能？
RQ2与优化单个排序步骤相比，最大化整个搜索会话的累积奖励在理论上是否必要且有益？
RQ3一种专为SSMDP中高方差与非均衡奖励分布设计的策略梯度算法，是否能超越标准强化学习与排序学习方法？
RQ4所提出的DPG-FBE算法是否在真实电商交易量上实现可测量的提升？
RQ5在具备实时用户反馈的生产工作负载下，该在线强化学习系统在可扩展性与性能表现上如何？

主要发现

所提DPG-FBE算法在仿真中实现的总交易量较最先进LTR方法高出40%以上。
在淘宝真实部署中，DPG-FBE算法相较离线LTR基线实现GMV（商品交易总额）超30%的增长。
A/B测试显示，在为期一周的测试期内，DPG-FBE在日交易量上较DDPG提升2.7%至4.3%。
该算法在2016年双11购物节期间成功投入生产，验证了其在高并发生产环境下的鲁棒性与可扩展性。
理论分析证实，由于搜索会话中各排序步骤间存在强相关性，最大化累积奖励是必要的。
DPG-FBE中的全备份估计有效降低了奖励方差，并提升了在复杂、稀疏奖励环境下的策略学习稳定性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。