[论文解读] Stochastic Bandit Models for Delayed Conversions
本文提出了一种用于在线广告中延迟转化的随机多臂赌博机框架,其中奖励以未知的随机延迟到达。它引入了两种高效算法——d-UCB 和 d-KLUCB——采用基于泊松化的乐观索引策略来处理被右删失的反馈,在低转化率下仍能实现近似最优的遗憾。
Online advertising and product recommendation are important domains of applications for multi-armed bandit methods. In these fields, the reward that is immediately available is most often only a proxy for the actual outcome of interest, which we refer to as a conversion. For instance, in web advertising, clicks can be observed within a few seconds after an ad display but the corresponding sale --if any-- will take hours, if not days to happen. This paper proposes and investigates a new stochas-tic multi-armed bandit model in the framework proposed by Chapelle (2014) --based on empirical studies in the field of web advertising-- in which each action may trigger a future reward that will then happen with a stochas-tic delay. We assume that the probability of conversion associated with each action is unknown while the distribution of the conversion delay is known, distinguishing between the (idealized) case where the conversion events may be observed whatever their delay and the more realistic setting in which late conversions are censored. We provide performance lower bounds as well as two simple but efficient algorithms based on the UCB and KLUCB frameworks. The latter algorithm, which is preferable when conversion rates are low, is based on a Poissonization argument, of independent interest in other settings where aggregation of Bernoulli observations with different success probabilities is required.
研究动机与目标
- 解决在转化反馈延迟且可能被右删失的情况下,学习最优动作的挑战。
- 将延迟分布建模为已知,但每根臂的转化概率未知,以反映现实世界网络广告数据的特征。
- 设计高效、可随时运行的赌博机算法,以考虑因延迟过长而未被观测到(右删失)的转化。
- 提供理论性能边界,并通过实证验证,所提算法优于朴素启发式方法(如丢弃延迟反馈)。
提出的方法
- 形式化一个随机赌博机模型,其中每次拉动一根臂会触发一次伯努利转化和一个独立的、已知分布的随机延迟。
- 引入两种设置:未删失(所有转化最终均可观测)和删失(反馈在固定窗口 m 后丢失)。
- 设计 d-UCB 和 d-KLUCB 算法,分别基于 UCB 和 KL 散度的乐观索引,以平衡探索与利用。
- 在 KLUCB 变体中应用泊松化论证,以高效聚合具有不同成功概率的伯努利观测值。
- 使用递归更新方案维护过去拉动的加权计数(例如,$ O_k(t+1) riangleq \lambda O_k(t) + \mathds{1}\{A_t = k\} $),以在几何延迟假设下保持计算效率。
- 当延迟呈几何分布时,通过滑动窗口和缓冲区实现内存高效的变体。
实验结果
研究问题
- RQ1在延迟转化场景中,当晚期转化未被观测到(即反馈被右删失)时,对赌博机算法的遗憾有何影响?
- RQ2能否将 UCB 和 KLUCB 等乐观索引策略适配以处理具有已知分布的无界随机延迟?
- RQ3在存在删失和未删失延迟反馈的情况下,赌博机算法的根本性能极限(下界)是什么?
- RQ4在低转化率下,基于 KLUCB 的算法(利用泊松化)与 UCB 相比,在遗憾和收敛速度方面表现如何?
- RQ5在短时 horizon 学习中,延迟感知算法在多大程度上优于朴素启发式方法(如丢弃延迟反馈)?
主要发现
- 本文为删失和未删失延迟反馈模型建立了问题相关的遗憾下界,提供了理论基准。
- d-KLUCB 算法实现了近似最优的渐近遗憾性能,尤其在转化率较低时(例如 0.03)表现优异,归因于其使用泊松化和 KL 散度。
- 在 $ T = 10,000 $、$ m = 1000 $、$ \mu = 500 $ 的模拟中,d-KLUCB 在低转化率场景($ \theta_L = (0.1, 0.05, 0.03) $)下显著优于 d-UCB 和丢弃启发式方法。
- 与丢弃策略相比,d-UCB 和 d-KLUCB 算法在短时 horizon 下表现出显著提升的性能,后者在初始化阶段遭受线性遗憾阶段。
- 在几何延迟假设下,算法可通过递归更新高效实现,将内存和计算复杂度分别降低至 $ O(m) $ 和 $ O(1) $ 每步。
- 实证结果证实,基于泊松化的 KLUCB 变体在遗憾增长率方面与最优速率相比损失可忽略不计,即使在低转化概率下亦然。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。