Skip to main content
QUICK REVIEW

[论文解读] An Information-Theoretic Approach to Minimax Regret in Partial Monitoring

Tor Lattimore, Csaba Szepesvári|arXiv (Cornell University)|Feb 1, 2019
Advanced Bandit Algorithms Research参考文献 34被引用 58
一句话总结

本文建立了一个极小极大定理,将最坏情形下的贝叶斯悔恨与极小极大悔恨在有限行动的部分监控中等同起来,扩展了信息理论悔恨工具以获得紧界,并在包括 k-armed bandits 和警匪博弈等若干情形下改进了常数项。

ABSTRACT

We prove a new minimax theorem connecting the worst-case Bayesian regret and minimax regret under partial monitoring with no assumptions on the space of signals or decisions of the adversary. We then generalise the information-theoretic tools of Russo and Van Roy (2016) for proving Bayesian regret bounds and combine them with the minimax theorem to derive minimax regret bounds for various partial monitoring settings. The highlight is a clean analysis of `non-degenerate easy' and `hard' finite partial monitoring, with new regret bounds that are independent of arbitrarily large game-dependent constants. The power of the generalised machinery is further demonstrated by proving that the minimax regret for k-armed adversarial bandits is at most sqrt{2kn}, improving on existing results by a factor of 2. Finally, we provide a simple analysis of the cops and robbers game, also improving best known constants.

研究动机与目标

  • 在有限行动的部分监控中普遍化贝叶斯悔恨与极小极大悔恨之间的联系,且不对对手的信号或决策做出假设。
  • 通过使用期望的Bregman散度取代互信息,扩展Russo和Van Roy的信息理论工具。
  • 推导简单与困难部分监控设置的极小极大悔恨界,并改进常数项和时 horizon 依赖。
  • 展示在k-臂对手攻击性带宽中的改进极小极大悔恨,并给出对警匪博弈的分析,常数更优。

提出的方法

  • 证明一个极小极大定理:inf_pi sup_x R_n(pi,x) = sup_nu min_pi BR_n(pi,nu) 在有限支持先验下。
  • 在悔恨界中将互信息替换为期望的Bregman散度,以获得更一般的信息权衡(定理5.2)。
  • 通过利用问题的线性结构(单元格C_a、邻居、可观测性)将该框架应用于有限行动的部分监控。
  • 将部分监控博弈分为四种类型,并为每种类型给出上界,在局部可观测和全局可观测情形下取得改进的常数。
  • 引入Mario采样,一种类似Thompson采样的算法,带有质量转移过程,达到所述的悔恨界(引理8.3)。
  • 对k-臂对手攻击性带带进行专门化以得到R*_n ≤ sqrt(2kn)(定理6.1),并讨论对警匪博弈的含义,常数得到改进。

实验结果

研究问题

  • RQ1在有限行动的部分监控中,在不作出严格假设的情况下,最坏情形贝叶斯悔恨与极小极大悔恨之间的关系是什么?
  • RQ2是否可以通过期望的Bregman散度扩展信息理论悔恨分析,以获得更紧的部分监控与带宽问题的极小极大悔恨界?
  • RQ3简单与困难的有限部分监控机制在悔恨增长上有何差异,常数是否可以独立于博弈相关因素?
  • RQ4在广义框架下,诸如k-臂对手式带宽和警匪博弈等特定情形下的明确悔恨界是多少?

主要发现

  • 一个极小极大定理,在有限行动的部分监控中,在不作出严格假设的情况下证明 BR*_n = R*_n(定理4.1)。
  • 使用期望的Bregman散度的通用悔恨-信息权衡,推出 BR_n ≤ αn + sqrt(nβ diam_F(D))(定理5.2)。
  • 对k-臂对手攻击性带的改进界:R*_n ≤ sqrt(2kn)(定理6.1)。
  • 将有限部分监控博弈分为四种情形,在局部可观测和全局可观测情形下取得改进的常数(定理7.1及定理7.2–7.4)。
  • 引入Mario采样,一种实现所述极小极大界的实用算法(算法与引理8.3)。
  • 对于警匪博弈,在该框架下改进的常数使得 R*_n ≤ sqrt{2n log(k)}。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。