Skip to main content
QUICK REVIEW

[论文解读] Bandits with Delayed Anonymous Feedback.

Ciara Pike-Burke, Shipra Agrawal|arXiv (Cornell University)|Sep 20, 2017
Advanced Bandit Algorithms Research被引用 4
一句话总结

本文研究了具有延迟、聚合和匿名反馈的随机多臂赌博机问题,其中奖励以随机延迟到达,且每轮仅能观测到延迟奖励的总和。当已知期望延迟时,该文提出了一种算法,其遗憾性能与非匿名情况相当——在有界延迟下精确匹配最坏情况遗憾,在无界延迟下仅增加对数因子或方差项。

ABSTRACT

We study a variant of the stochastic $K$-armed bandit problem, which we call with delayed, aggregated anonymous feedback. In this problem, when the player pulls an arm, a reward is generated, however it is not immediately observed. Instead, at the end of each round the player observes only the sum of a number of previously generated rewards which happen to arrive in the given round. The rewards are stochastically delayed and due to the aggregated nature of the observations, the information of which arm led to a particular reward is lost. The question is what is the cost of the information loss due to this delayed, aggregated anonymous feedback? Previous works have studied bandits with stochastic, non-anonymous delays and found that the regret increases only by an additive factor relating to the expected delay. In this paper, we show that this additive regret increase can be maintained in the harder delayed, aggregated anonymous feedback setting when the expected delay (or a bound on it) is known. We provide an algorithm that matches the worst case regret of the non-anonymous problem exactly when the delays are bounded, and up to logarithmic factors or an additive variance term for unbounded delays.

研究动机与目标

  • 分析在随机多臂赌博机中,由于奖励延迟、聚合和匿名化导致的信息损失影响。
  • 确定此类反馈结构引起的遗憾增加是否保持有界,特别是与非匿名延迟反馈设置相比。
  • 设计一种在缺乏反馈归属信息的情况下仍能保持近似最优遗憾性能的算法。
  • 建立依赖于期望延迟或其上界的理论遗憾边界。
  • 刻画强化学习反馈机制中匿名性和延迟的根本代价。

提出的方法

  • 提出一种新颖的赌博机算法,利用已知的期望延迟或其上界来估计延迟奖励。
  • 采用改进的UCB风格探索策略,以应对延迟和聚合观测带来的不确定性。
  • 基于已知的期望延迟分布,设计奖励重构机制以估计各臂的奖励贡献。
  • 应用集中不等式,控制因延迟和匿名反馈导致的奖励估计不确定性。
  • 引入置信区间调整机制,以考虑聚合和延迟过程引入的方差。
  • 通过将算法性能与在有界和无界延迟假设下最优的非匿名赌博机策略进行比较,分析遗憾。

实验结果

研究问题

  • RQ1当奖励随机延迟时,匿名化在赌博机反馈中的根本代价是什么?
  • RQ2在延迟、聚合、匿名反馈设置下,遗憾是否能被一个与期望延迟相关的加法因子所界定,如同在非匿名设置中一样?
  • RQ3当反馈被聚合且臂的身份信息丢失时,赌博机算法的性能会如何退化?
  • RQ4在何种条件下,遗憾能与非匿名延迟赌博机问题的遗憾相匹配?
  • RQ5当期望延迟已知时,即使在无界延迟分布下,算法是否仍能实现近似最优遗憾?

主要发现

  • 当延迟有界时,所提算法的遗憾与非匿名赌博机问题的最坏情况遗憾完全一致。
  • 在无界延迟下,遗憾仅相对于非匿名情况增加对数因子或加法方差项。
  • 该算法通过利用期望延迟或其上界的已知信息实现了这一性能。
  • 由于匿名性和聚合导致的信息损失不会带来乘法型遗憾惩罚,仅导致与延迟相关的加法型惩罚。
  • 理论分析证实,当已知期望延迟时,延迟且匿名反馈的代价最小。
  • 研究结果扩展了非匿名延迟赌博机的先前工作,表明仅匿名性本身在已知延迟统计信息下并不会显著降低性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。