[论文解读] Seq2Slate: Re-ranking and Slate Optimization with RNNs
Seq2Slate 使用带指针网络的序列到序列模型,通过在已选项条件下顺序选择下一个项来重新排序物品 slate;使用来自点击数据的弱监督进行训练。
Ranking is a central task in machine learning and information retrieval. In this task, it is especially important to present the user with a slate of items that is appealing as a whole. This in turn requires taking into account interactions between items, since intuitively, placing an item on the slate affects the decision of which other items should be placed alongside it. In this work, we propose a sequence-to-sequence model for ranking called seq2slate. At each step, the model predicts the next `best' item to place on the slate given the items already selected. The sequential nature of the model allows complex dependencies between the items to be captured directly in a flexible and scalable way. We show how to learn the model end-to-end from weak supervision in the form of easily obtained click-through data. We further demonstrate the usefulness of our approach in experiments on standard ranking benchmarks as well as in a real-world recommendation system.
研究动机与目标
- 在显示区域受限或多样性有价值时,说明建模排序项之间交互的必要性。
- 提出一种可扩展的序列到 slate 模型,通过逐步选择项来输出一个排列(slate)。
- 实现从弱监督(点击数据)到端到端学习,而不是基于真实排名的监督。
- 在学习排序基准和一个大规模实际推荐系统上证明其有效性。
提出的方法
- 将排序公式化为使用指针网络(带注意力的编码器-解码器)输出输入项的排列的序列预测。
- 使用两个基于 LSTM 的 RNN 来编码候选项并解码 slate,在选择下一个项时使用注意力机制。
- 通过对剩余项的非参数 softmax 来建模条件概率 p(pi_j | pi_<j, x),从而实现高阶项间依赖。
- 端到端训练,可以使用监督的交叉熵损失,或基于点击数据的弱监督目标,包括基于 RL 的目标(REINFORCE)和忽略已选中项的逐步损失。
- 在推理时采用贪婪解码或采样;提供一个线性时间复杂度的单步解码器替代方案。
- 讨论使用序列损失 L_pi 进行训练,该损失包含逐步损失和可选权重,以强调前序 slate 位置。
实验结果
研究问题
- RQ1基于 seq2seq 的重新排序模型是否能够捕捉 slate 中项之间的高阶交互和多样性?
- RQ2使用点击数据的弱监督训练是否能够有效学习 slate 级偏好?
- RQ3Seq2Slate 与传统的逐点和逐表排序器在标准基准和真实世界数据上有何比较?
- RQ4在性能和速度方面,逐步解码与更便宜的一步解码之间有哪些权衡?
主要发现
- Seq2Slate 在由多样点击生成的学习排序基准上显著优于一系列基线。
- 序列解码使模型能够基于先前选择的 slate 项来调整项分数,从而捕捉高阶项间交互。
- 带贪婪策略的监督交叉熵训练在训练变体中通常表现最佳,弱监督方法对基线排序器提供稳定的排名提升。
- 在真实世界数据中,seq2slate 相对于生产的基线排序器获得显著提升,序列解码在关键指标上优于一步解码。
- 该模型对输入顺序敏感,当项以随机顺序呈现时表现较差,表明重排序比从头进行完整排序更容易。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。