[论文解读] Bandits with Delayed, Aggregated Anonymous Feedback
这篇论文研究带有延迟、聚合的匿名反馈的K-臂赌博(MABDAAF),并表明在已知期望延迟的情况下,后悔度相对于无延迟情形在常数因子内保持一致,在各种延迟假设下;他们还提供一种算法(ODA AF)在有界或已知方差延迟下接近最优的后悔界。
We study a variant of the stochastic $K$-armed bandit problem, which we call "bandits with delayed, aggregated anonymous feedback". In this problem, when the player pulls an arm, a reward is generated, however it is not immediately observed. Instead, at the end of each round the player observes only the sum of a number of previously generated rewards which happen to arrive in the given round. The rewards are stochastically delayed and due to the aggregated nature of the observations, the information of which arm led to a particular reward is lost. The question is what is the cost of the information loss due to this delayed, aggregated anonymous feedback? Previous works have studied bandits with stochastic, non-anonymous delays and found that the regret increases only by an additive factor relating to the expected delay. In this paper, we show that this additive regret increase can be maintained in the harder delayed, aggregated anonymous feedback setting when the expected delay (or a bound on it) is known. We provide an algorithm that matches the worst case regret of the non-anonymous problem exactly when the delays are bounded, and up to logarithmic factors or an additive variance term for unbounded delays.
研究动机与目标
- 动机并形式化带有延迟、聚合的匿名反馈(MABDAAF)的赌博问题。
- 开发能够处理聚合、匿名的延迟奖励的算法。
- 在不同延迟假设下推导后悔界(已知平均值、有界支持、有界方差)。
- 在某些知识假设下,匿名性/附加延迟的代价可以忽略不计。
- 提供所提方法的实际洞察与实验验证。
提出的方法
- 将 MABDAAF 定义为在一个轮次末到达的奖励之和,来自过去奖励但来源未知。
- 提出一个基于阶段的、极少切换的算法(ODA AF),受 Improved UCB 1 1 1 启发,用于在延迟、聚合反馈下管理探索。
- 构建考虑延迟的置信区间,利用 Freedman 不等式和 Doob 的最优跳跃定理。
- 引入桥接期以降低阶段之间及未来观测值之间的相关性。
- 在三种延迟设定下推导后悔保证:已知有界均值延迟、具有已知界限的有界延迟,以及已知方差的延迟。
- 分析估计误差,展示如何设定相长度 n_m 以实现期望的集中性。
实验结果
研究问题
- RQ1在聚合、匿名的延迟反馈存在的情况下,我们是否能实现接近标准 MAB 的后悔度?
- RQ2已知延迟信息(均值、界限或方差)如何影响 MABDAAF 下可实现的后悔度?
- RQ3在有界、无界(具有方差)延迟下的后悔界是多少,它们与无延迟设置相比如何?
- RQ4当奖励以聚合形式到达且来源未知时,如何构建置信界?
- RQ5桥接期是否有助于减轻阶段之间和延迟观测之间的相关性?
主要发现
- 在已知期望延迟下,该算法的后悔度达到 O(√(KT log K) + K E[τ] log T)。
- 在有界延迟 d 且已知界限时,后悔度提升至 O(√(KT log K) + K E[τ]),当 d 较小时与先前工作相匹配。
- 若延迟无上界但具有已知方差,问题无关的后悔度为 O(√(KT log K) + K E[τ] + K Var(τ))。
- 当延迟有界且 d ≤ √(T log K / K) + E[τ] 时,后悔度与 Joulani 等人(2013)的速率相匹配。
- 该分析结合 Freedman 不等式、Doob 的最优跳跃定理和 Azuma-Hoeffding 不等式来处理相关性与方差。
- 实验表明,所提的 ODAAF 变体在不同延迟情景下实现的后悔比相对于 QPM-D 收敛到常数。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。