QUICK REVIEW

[论文解读] Budget Optimization for Sponsored Search: Censored Learning in MDPs

Kareem Amin, Michael Kearns|arXiv (Cornell University)|Oct 16, 2012

Advanced Bandit Algorithms Research参考文献 10被引用 44

一句话总结

本文将赞助搜索广告拍卖中的预算优化问题形式化为右删失的马尔可夫决策过程（MDP），由于预算限制，点击率仅部分可观测。提出一种基于Kaplan-Meier估计器处理删失数据的学习算法，在真实世界微软adCenter数据上展示了快速收敛至最优性能。

ABSTRACT

We consider the budget optimization problem faced by an advertiser participating in repeated sponsored search auctions, seeking to maximize the number of clicks attained under that budget. We cast the budget optimization problem as a Markov Decision Process (MDP) with censored observations, and propose a learning algorithm based on the wellknown Kaplan-Meier or product-limit estimator. We validate the performance of this algorithm by comparing it to several others on a large set of search auction data from Microsoft adCenter, demonstrating fast convergence to optimal performance.

研究动机与目标

解决在预算约束下重复进行赞助搜索广告拍卖时优化广告支出的挑战。
将预算优化问题建模为由于支出受限而存在删失观测的马尔可夫决策过程。
开发一种能有效处理来自删失拍卖的不完整数据的学习算法。
使用真实世界广告拍卖数据，将所提方法与现有方法进行对比验证。

提出的方法

将预算优化问题形式化为删失MDP，由于预算限制，仅可观测到点击（而非完整结果）。
应用Kaplan-Meier（乘积限）估计器，从删失数据中估计点击率，从而实现无偏学习。
采用强化学习框架，基于每轮拍卖的删失反馈更新动作价值估计。
将Kaplan-Meier估计器集成到类似Q-learning的算法中，以处理MDP中的部分观测。
采用非参数估计技术，不假设点击率服从特定分布。
在真实微软adCenter拍卖日志上验证该方法，并与基线算法进行性能比较。

实验结果

研究问题

RQ1当由于预算限制仅能获得部分反馈（删失数据）时，广告商如何学习最优出价策略？
RQ2Kaplan-Meier估计器能否有效适应具有删失观测的MDP框架下的强化学习设置？
RQ3所提出的删失学习算法是否比标准预算优化方法收敛更快且性能更优？
RQ4该算法在真实世界广告拍卖数据中，面对有限且噪声较大的反馈时，实际表现如何？

主要发现

所提算法在真实世界微软adCenter数据上实现了快速收敛至近似最优性能。
使用Kaplan-Meier估计器即使在预算限制导致的删失观测下，也能实现对点击率的准确估计。
在相同预算下，该方法获得的总点击数优于基线算法。
该算法在反馈有限且拍卖结果方差较高时，仍表现出良好的鲁棒性与稳定性。
实证结果表明，通过Kaplan-Meier实现的删失学习相比未进行删失校正的标准Q-learning，显著提升了预算利用率。
该方法在不完整数据存在的情况下，有效平衡了探索与利用，从而实现了更优的长期点击最大化。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。