QUICK REVIEW

[论文解读] Counterfactual Risk Minimization: Learning from Logged Bandit Feedback

Adith Swaminathan, Thorsten Joachims|arXiv (Cornell University)|Feb 9, 2015

Advanced Bandit Algorithms Research参考文献 35被引用 124

一句话总结

本文提出了反事实风险最小化（CRM），这是一种从记录的Bandit反馈中进行批量学习的系统性框架，其中仅能观测到部分反馈（例如点击）。该研究提出了POEM，一种基于随机指数族模型的结构化输出预测高效算法，通过随机梯度下降最小化一种考虑方差的倾向性加权风险估计器，实现了优于最先进方法的泛化能力和鲁棒性。

ABSTRACT

We develop a learning principle and an efficient algorithm for batch learning from logged bandit feedback. This learning setting is ubiquitous in online systems (e.g., ad placement, web search, recommendation), where an algorithm makes a prediction (e.g., ad ranking) for a given input (e.g., query) and observes bandit feedback (e.g., user clicks on presented ads). We first address the counterfactual nature of the learning problem through propensity scoring. Next, we prove generalization error bounds that account for the variance of the propensity-weighted empirical risk estimator. These constructive bounds give rise to the Counterfactual Risk Minimization (CRM) principle. We show how CRM can be used to derive a new learning method -- called Policy Optimizer for Exponential Models (POEM) -- for learning stochastic linear rules for structured output prediction. We present a decomposition of the POEM objective that enables efficient stochastic gradient optimization. POEM is evaluated on several multi-label classification problems showing substantially improved robustness and generalization performance compared to the state-of-the-art.

研究动机与目标

解决从记录的Bandit反馈中学习的挑战，其中仅能获得部分反馈（例如点击），缺乏完整监督信号。
提出一种通用的学习原则，同时考虑离策略风险估计中的偏差与方差，从而实现从历史日志中进行鲁棒的模型选择。
设计一种针对大规模输出空间的结构化预测的高效优化方法，使用随机策略作为假设表示。
证明即使基于次优的记录策略，通过反事实风险最小化仍可学习到更优策略。
在多标签分类任务上通过实证验证CRM原则，表明其在泛化性能上优于最先进方法。

提出的方法

提出反事实风险最小化（CRM）作为通用原则，将结构风险最小化扩展至Bandit反馈下的随机假设族。
基于经验伯恩斯坦论证推导泛化误差界，引入倾向性加权风险估计器的方差，以指导假设选择。
提出POEM（指数族模型的策略优化器），一种基于线性规则的指数族模型用于结构化输出预测的学习算法。
采用重复方差线性化，将POEM目标函数分解为适合使用AdaGrad进行随机梯度优化的形式。
使用逆倾向性评分构建离策略性能的无偏估计器，从而实现从记录数据中评估替代策略。
引入基于风险估计器方差的数据相关正则化项，确保对低质量记录策略的鲁棒性。

实验结果

研究问题

RQ1能否为从记录的Bandit反馈中进行批量学习开发一种系统性学习框架，同时考虑性能估计中的偏差与方差？
RQ2如何在部分反馈下为随机假设族构建泛化误差界，以及这些界如何指导模型选择？
RQ3能否基于仅Bandit反馈，为具有指数级大输出空间的结构化预测推导出可扩展的优化方法？
RQ4记录策略的质量与随机性如何影响CRM原则下所学策略的性能？
RQ5所提出方法在真实世界多标签分类任务中是否在泛化能力和鲁棒性方面优于最先进方法？

主要发现

即使在次优策略记录的数据上训练，POEM在多标签分类基准上仍显著优于最先进方法，展现出更强的泛化性能。
该方法始终能学习到优于记录策略$h_0$的策略，即使$h_0$训练质量较差，表明对低质量记录行为具有鲁棒性。
POEM在不同记录策略质量水平（$f$从1%到100%的训练数据）下均保持优异性能，表明其能有效从多样化数据质量中学习。
当记录策略变得高度确定时，POEM仍能保持强性能，极端情况下可恢复$h_0$的MAP预测结果，表明其具备平滑退化特性。
该方法在所有测试数据集（包括Yeast和LYRL）中均表现出一致改进，且最终模型无需超参数调优。
实证结果支持CRM的理论主张，验证了考虑方差的风险最小化优于标准方法，能带来更好的泛化性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。