[论文解读] Learning from Logged Implicit Exploration Data
本文提出了一种从上下文Bandit设置中记录的隐式探索数据中学习最优策略的方法,其中记录策略的行为未知且非随机。通过回归估计动作选择概率,并应用带有稳定性阈值的重要加权方法,该方法无需随机化或显式记录探索概率,即可实现一致的离线策略学习,在真实广告数据中表现优于朴素的监督学习方法。
We provide a sound and consistent foundation for the use of \emph{nonrandom} exploration data in "contextual bandit" or "partially labeled" settings where only the value of a chosen action is learned. The primary challenge in a variety of settings is that the exploration policy, in which "offline" data is logged, is not explicitly known. Prior solutions here require either control of the actions during the learning process, recorded random exploration, or actions chosen obliviously in a repeated manner. The techniques reported here lift these restrictions, allowing the learning of a policy for choosing actions given features from historical data where no randomization occurred or was logged. We empirically verify our solution on two reasonably sized sets of real-world data obtained from Yahoo!.
研究动机与目标
- 解决在仅有记录的、非随机探索数据可用时,上下文Bandit中的冷启动问题。
- 在记录策略的动作概率未知或确定性选择的情况下,实现从历史数据中的策略学习。
- 克服监督学习和标准Bandit算法的局限性,这些方法因泛化能力差或缺乏探索数据而失效。
- 为在线广告等实际应用中的离线策略评估与学习提供一个理论坚实且实证验证的方法。
提出的方法
- 即使策略是确定性的,也通过在记录数据上进行回归来估计记录策略的动作选择概率 $\hat{\pi}(a|x)$。
- 构建具有重要加权 $1/\max\{\hat{\pi}(a|x), \tau\}$ 的合成上下文Bandit事件,以纠正选择偏差并确保数值稳定性。
- 对加权的合成数据集应用标准的离线上下文Bandit算法,以学习策略 $h(x)$。
- 将argmax策略限制在估计选择概率为正的动作上,以避免对外部未观测动作的外推。
- 使用重要加权方法平衡各动作的学习,确保对观测到的动作集合中所有动作的奖励估计均得到同等重视。
- 调节超参数 $\tau$ 以控制有效假设空间并改善泛化能力,较小的 $\tau$ 允许更广泛的策略搜索。
实验结果
研究问题
- RQ1当记录策略的动作概率未知且非随机时,我们能否从记录数据中学习到高性能的策略?
- RQ2当未记录显式探索概率时,如何在离线策略学习中纠正选择偏差?
- RQ3使用估计的记录策略概率进行重要加权,是否能在无随机化的情况下实现一致且准确的策略评估?
- RQ4在实践中,$\tau$ 的选择如何影响所学策略的性能和泛化能力?
- RQ5该方法能否优于因在罕见或未观测动作上泛化能力差而失效的朴素监督学习方法?
主要发现
- 所提出的方法显著优于朴素监督学习方法,后者因在未观测动作上泛化能力差而在测试集上获得零奖励。
- 使用 $\tau = 0.05$ 学习到的策略获得了高于随机策略的估计策略价值,表明性能估计具有稳定的有效范围。
- 当 $\tau$ 从 0.05 降低到 0.01 时,所学策略的性能得到提升,证实了更小的 $\tau$ 扩展了假设空间并增强了学习能力。
- 测试集上的实际点击率(0.0213)略高于最佳所学策略的估计值,表明该估计器提供了保守但可靠的下界。
- 该方法成功区分了学习到的策略与随机策略,以及在较大与较小动作集上训练的策略,验证了其准确排序策略的能力。
- 理论分析与实证结果共同表明,即使记录策略是确定性的且依赖于输入,该方法仍能提供一致且偏差校正的离线策略评估估计器。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。