[论文解读] Off-policy evaluation for slate recommendation
本文提出一种伪逆估计器(PI),用于在版面推荐中进行离策略评估,通过在动作级奖励上施加线性假设,实现对整个页面指标(如NDCG和ERR)的高精度、低数据量估计。该方法在样本复杂度上相比逆倾向得分(IPS)实现指数级降低,并在真实搜索数据中优于参数化和无偏基线模型,支持仅需极少A/B测试即可高效进行策略优化。
This paper studies the evaluation of policies that recommend an ordered set of items (e.g., a ranking) based on some context---a common scenario in web search, ads, and recommendation. We build on techniques from combinatorial bandits to introduce a new practical estimator that uses logged data to estimate a policy's performance. A thorough empirical evaluation on real-world data reveals that our estimator is accurate in a variety of settings, including as a subroutine in a learning-to-rank task, where it achieves competitive performance. We derive conditions under which our estimator is unbiased---these conditions are weaker than prior heuristics for slate evaluation---and experimentally demonstrate a smaller bias than parametric approaches, even when these conditions are violated. Finally, our theory and experiments also show exponential savings in the amount of required data compared with general unbiased estimators.
研究动机与目标
- 解决当目标策略与记录策略显著不同时,利用记录数据评估整个页面推荐策略的挑战。
- 降低传统逆倾向得分(IPS)估计器在组合式版面设置下的高数据需求。
- 开发一种即使在线性假设被违反时仍保持低偏差的方法,优于参数化模型。
- 通过PI估计器插补动作级奖励,实现端到端的强化学习排序,支持高效的离策略优化。
- 在具有多样化版面指标的真实搜索引擎数据集上,展示方法的实际适用性和鲁棒性。
提出的方法
- 提出一种源自组合多臂赌博机理论的伪逆估计器(PI),并将其适配于版面推荐中的离策略评估。
- 施加一个弱线性假设:版面级奖励可在线性分解为各动作的奖励之和,尽管单个动作的奖励未被观测到。
- 利用来自记录策略的记录数据,通过选择概率矩阵的伪逆运算,估计目标策略的期望奖励。
- 采用基于特征的模型,将每个查询-文档-位置三元组视为独立样本,其特征包括位置编码的拼接。
- 通过贪心选择过程构建版面,通过最大化各位置估计得分之和,确保生成有效版面。
- 通过按查询对估计的动作级奖励取平均,引入一种方差缩减技术,以生成更稳定的回归目标。
实验结果
研究问题
- RQ1非参数、模型无关的估计器是否能在版面指标的离策略评估中实现低于参数化模型的偏差?
- RQ2在组合式版面设置中,伪逆估计器是否能在显著少于逆倾向得分(IPS)的样本下保持低误差?
- RQ3当真实奖励结构复杂或存在误设时,线性假设在多大程度上仍能实现准确估计?
- RQ4PI估计器能否作为子程序有效用于离策略优化,以在无需A/B测试的情况下学习排序策略?
- RQ5在覆盖度较低、与目标策略重叠性差的记录策略下,估计器性能如何变化?
主要发现
- 在真实搜索数据中,伪逆估计器(PI)在所有指标和数据规模下均实现了最低的RMSE,优于无偏IPS和有偏直接建模(DM)方法。
- PI将样本复杂度从IPS的 $ m^{ ext{O}( ext{L})} $ 降低至 $ ext{O}( ext{L}m/ ext{ε}^2) $,在线性假设下实现数据需求的指数级节省。
- 即使线性假设被违反,PI的偏差仍显著低于参数化模型,展现出实际应用中的鲁棒性。
- 在离策略优化中,PI-OPT在MSLR-WEB10K数据集上实现了具有竞争力的性能,优于标准监督学习(SUP)基线模型的排序质量。
- 即使在严重偏斜的记录策略下,该方法仍保持低误差,且随着记录数据量的增加,性能持续提升。
- 实证结果表明,按查询对估计的动作级奖励取平均可降低方差而不引入偏差,从而增强回归稳定性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。