QUICK REVIEW

[论文解读] Online Learning under Delayed Feedback

Pooria Joulani, András György|arXiv (Cornell University)|Jun 4, 2013

Advanced Bandit Algorithms Research参考文献 11被引用 29

一句话总结

本文对延迟反馈下的在线学习进行了系统性分析，提出了一类黑箱元算法，可将非延迟的在线学习算法转换为能处理反馈延迟的算法。研究表明，在对抗性设置下，延迟使遗憾呈乘法增长，而在随机设置下仅呈加法增长；并提出了一种针对随机多臂赌博机的低复杂度UCB改进方法，其遗憾保证仅受延迟带来的加法惩罚影响。

ABSTRACT

Online learning with delayed feedback has received increasing attention recently due to its several applications in distributed, web-based learning problems. In this paper we provide a systematic study of the topic, and analyze the effect of delay on the regret of online learning algorithms. Somewhat surprisingly, it turns out that delay increases the regret in a multiplicative way in adversarial problems, and in an additive way in stochastic problems. We give meta-algorithms that transform, in a black-box fashion, algorithms developed for the non-delayed case into ones that can handle the presence of delays in the feedback loop. Modifications of the well-known UCB algorithm are also developed for the bandit problem with delayed feedback, with the advantage over the meta-algorithms that they can be implemented with lower complexity.

研究动机与目标

为对抗性与随机设置下延迟反馈的在线学习提供全面的理论分析。
设计通用的黑箱元算法，将非延迟在线学习算法转换为对反馈延迟具有鲁棒性的算法。
为延迟反馈下的随机多臂赌博机设计低复杂度、专用的UCB变体，实现最小性能下降。
量化延迟对遗憾的影响，区分对抗性与随机问题结构下的表现差异。
识别 $ G_n^* $（最多缺失奖励数）为关键性能决定因素，并探讨其与排队论和马尔可夫链的关联。

提出的方法

提出一种带时间戳的延迟反馈通用部分监控框架，其中第 $ t $ 步决策的反馈在时间 $ t + \tau_t $ 到达。
引入元算法，保持原始算法行为不变，但通过延迟更新直到反馈到达来处理延迟反馈。
使用置信上界（UCB）形式 $ B_{i,s,t} = \hat{\mu}_{i,s} + \sqrt{2\log t / s} $，并调整为仅使用截至时间 $ t $ 的观测奖励，即 $ S_i(t-1) $，以构建延迟UCB1算法。
应用浓度不等式来限制次优动作的次数，将标准UCB遗憾分析扩展至延迟设置，并引入加法惩罚项。
通过有界期望遗憾来分析延迟UCB算法，其表达式为 $ \mathbb{E}[R_n] \leq \sum_{i:\Delta_i > 0} \left[ \frac{8\log n}{\Delta_i} + 3.5\Delta_i \right] + \sum_{i=1}^K \Delta_i \mathbb{E}[G_{i,n}^*] $，其中 $ G_{i,n}^* $ 为臂 $ i $ 的最大未观测奖励数。
揭示 $ G_n^* $ 与具有确定性到达的多服务器排队系统及马尔可夫链偏离之间的联系，提示可通过这些领域实现更优分析。

实验结果

研究问题

RQ1在对抗性与随机设置下，反馈延迟如何影响在线学习算法的遗憾？
RQ2能否设计通用的元算法，以黑箱方式将非延迟在线学习算法转换为可处理延迟反馈的算法？
RQ3在随机赌博机问题中，延迟引入的额外遗憾最小是多少？是否可加法有界？
RQ4专用的UCB算法修改能否在保持遗憾保证的同时，实现比通用元算法更低的计算复杂度？
RQ5$ G_n^* $（最多缺失奖励数）在决定延迟在线学习算法性能中起什么作用？

主要发现

在对抗性在线学习中，反馈延迟使遗憾呈乘法增长，使问题比无延迟情况显著更困难。
在随机赌博机问题中，延迟仅使遗憾呈加法增长，意味着渐近遗憾的标度保持不变，仅增加一个依赖于最多缺失奖励数的惩罚项。
所提出的黑箱元算法成功将非延迟算法适应于延迟反馈，对抗性情况下遗憾保证仅受乘法因子影响，随机情况下仅受加法因子影响。
延迟UCB1算法（UCB1的改进版本）保持与标准UCB1相同的遗憾界，仅增加一个加法惩罚项 $ \sum_{i=1}^K \Delta_i \mathbb{E}[G_{i,n}^*] $，其中 $ G_{i,n}^* $ 为臂 $ i $ 的最大未观测奖励数。
衡量最大缺失奖励数的 $ G_n^* $ 与具有确定性到达的多服务器排队系统中最多使用的服务器数等价，提示可通过跨领域分析实现更优理解。
本文指出了理论理解的缺口，指出尽管观测行为定性正确，但延迟反馈在部分监控设置下的匹配下界仍缺失。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。