QUICK REVIEW

[论文解读] Large-scale Validation of Counterfactual Learning Methods: A Test-Bed

Damien Lefortier, Adith Swaminathan|arXiv (Cornell University)|Dec 1, 2016

Advanced Bandit Algorithms Research参考文献 10被引用 27

一句话总结

本文引入了一个大规模、公开可用的测试平台，利用真实世界的展示广告数据，评估在横幅广告投放场景下离策略学习方法的效果。实验表明，最先进的反事实学习方法（如POEM和双重稳健优化）在真实世界数据集上显著优于监督学习基线方法，通过合理的倾向性得分估计，实现了更高的预估点击率表现。

ABSTRACT

The ability to perform effective off-policy learning would revolutionize the process of building better interactive systems, such as search engines and recommendation systems for e-commerce, computational advertising and news. Recent approaches for off-policy evaluation and learning in these settings appear promising. With this paper, we provide real-world data and a standardized test-bed to systematically investigate these algorithms using data from display advertising. In particular, we consider the problem of filling a banner ad with an aggregate of multiple products the user may want to purchase. This paper presents our test-bed, the sanity checks we ran to ensure its validity, and shows results comparing state-of-the-art off-policy learning methods like doubly robust optimization, POEM, and reductions to supervised learning using regression baselines. Our results show experimental evidence that recent off-policy learning methods can improve upon state-of-the-art supervised learning techniques on a large-scale real-world data set.

研究动机与目标

提供一个标准化的、大规模的测试平台，用于使用来自展示广告的真实记录数据评估离策略学习算法。
在真实、高风险的交互系统环境中，实现对反事实学习方法的系统性基准测试。
在真实世界数据集上，验证近期离策略学习技术（如双重稳健优化和POEM）相对于监督学习基线的有效性。
为离策略学习研究中的数据质量与有效性建立严格的合理性检验。
支持未来在可扩展策略学习、改进正则化和批量学习中的带Bandit反馈的模型选择方面的研究。

提出的方法

测试平台使用Criteo展示广告平台的真实记录数据，为每项采取的动作提供精确的倾向性得分。
学习任务是选择最优产品在横幅广告中展示（单槽场景），以最大化点击率，利用用户和产品的上下文特征。
系统将问题建模为上下文Bandit问题，使用记录数据，其中每次用户曝光包含上下文、候选产品及观测到的反馈（点击）。
通过广告投放过程中的随机探索，准确记录倾向性得分，从而实现有效的反事实评估。
评估框架采用33-33-33%的训练-验证-测试划分，并应用标准指标：预估奖励 $\hat{R}(\pi)$ 和成本 $\hat{C}(\pi)$。
对六种方法进行基准测试：随机策略、回归（监督学习）、IPS、DRO（双重稳健）、POEM，全部使用线性策略类 $\pi \in \Pi_{\text{lin}}$。

实验结果

研究问题

RQ1近期的离策略学习方法是否能在真实世界、大规模场景下超越标准的监督学习基线？
RQ2在具有精确倾向性得分的真实记录数据上，不同反事实估计技术（如IPS、DRO、POEM）的表现如何？
RQ3对数据质量和记录流程进行合理性检查，在多大程度上影响了离策略评估的可靠性？
RQ4利用倾向性得分的策略优化方法是否能比直接基于观测奖励的回归方法实现更好的泛化性能？
RQ5超参数选择与方差正则化如何影响POEM和DRO等离策略学习算法的性能？

主要发现

POEM在测试集上实现了最高的预估奖励，为 $58.040 \times 10^{-4}$，99%置信区间为 $\pm 3.407 \times 10^{-4}$。
双重稳健优化（DRO）实现了 $57.356 \times 10^{-4}$，显著优于回归基线的 $48.353 \times 10^{-4}$。
IPS估计结果为 $54.125 \times 10^{-4}$，相较于记录策略 $\pi_0$ 的 $53.540 \times 10^{-4}$ 有所提升。
POEM与DRO的性能显著优于监督回归基线，表明反事实方法能有效利用倾向性得分以提升泛化能力。
即使在极少超参数调优的情况下，POEM与DRO仍优于所有基线，表明这些方法在真实世界部署中具有强大的实证潜力。
结果首次提供了实验证据，表明现代离策略学习方法可在大规模真实世界数据集上超越最先进的监督学习技术。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。