[论文解读] Multiple-Play Bandits in the Position-Based Model
本文提出了一种新颖的遗憾下界以及在位置基础模型(PBM)下的计算高效算法,该模型中用户点击受未观测到的位置检查概率所屏蔽。通过将点击反馈建模为位置检查概率与项目相关性之积,作者设计了乐观算法,在具有隐式反馈的推荐系统中实现了理论和实证性能的提升。
Sequentially learning to place items in multi-position displays or lists is a task that can be cast into the multiple-play semi-bandit setting. However, a major concern in this context is when the system cannot decide whether the user feedback for each item is actually exploitable. Indeed, much of the content may have been simply ignored by the user. The present work proposes to exploit available information regarding the display position bias under the so-called Position-based click model (PBM). We first discuss how this model differs from the Cascade model and its variants considered in several recent works on multiple-play bandits. We then provide a novel regret lower bound for this model as well as computationally efficient algorithms that display good empirical and theoretical performance.
研究动机与目标
- 解决用户反馈受未观测到的位置基础检查概率屏蔽的多位置推荐系统中的学习挑战。
- 在位置基础模型(PBM)下形式化多选老虎机问题,其中仅能观测到被屏蔽的点击反馈。
- 为PBM设置推导出新的遗憾下界,使其与先前的模型(如级联模型和依赖点击模型)相区别。
- 设计计算高效的乐观算法,在PBM设置下实现强大的理论与实证性能。
提出的方法
- 将PBM建模为具有$L$个选择的随机多选老虎机问题,其中每个位置$l$具有未观测到的检查概率$\kappa_l$。
- 观测到被屏蔽的反馈:$Z_l(t) = Y_l(t) \cdot X_l(t)$,其中$Y_l(t) \sim \mathcal{B}(\kappa_l)$为未观测到的,$X_l(t) \sim \mathcal{B}(\theta_{A_l(t)})$为项目的相关性。
- 提出两种乐观算法,通过调整位置特定检查效应的KL-UCB风格置信区间,平衡探索与利用。
- 通过分析在被屏蔽反馈下区分次优与最优臂的统计难度,推导出遗憾下界。
- 对被屏蔽观测的部分和使用集中不等式(如Hoeffding型不等式)来控制估计误差。
- 应用停止时间论证和鞅集中不等式,界定次优臂被选择的次数,从而得出遗憾上界。
实验结果
研究问题
- RQ1PBM设置与级联模型和依赖点击模型在反馈结构与学习挑战方面有何不同?
- RQ2在PBM设置下,多选老虎机问题的根本统计极限(即遗憾下界)是什么?
- RQ3我们能否设计出计算高效的算法,使其在PBM设置下实现渐近最优遗憾?
- RQ4位置特定的检查概率$\kappa_l$如何影响学习过程与可实现的遗憾?
主要发现
- 本文为PBM设置下的多选老虎机问题建立了新的遗憾下界,形式化了在被屏蔽反馈下学习的内在困难。
- 所提出的乐观算法实现了与推导下界仅相差对数因子的理论遗憾上界,表明其具有渐近最优性。
- 在合成数据与真实世界数据上的实证评估表明,所提算法在累积遗憾与收敛速度方面优于现有基准。
- 分析表明,检查概率$\kappa_l$显著影响学习过程,尤其在较高位置$\kappa_l$较低时,会增加项目相关性估计的难度。
- 理论分析确认,次优臂被选择的次数被限制在$O(\log T)$以内,常数取决于期望点击概率的差距与位置权重。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。