Skip to main content
QUICK REVIEW

[论文解读] Online Learning with Feedback Graphs: Beyond Bandits

Noga Alon, Nicolò Cesa‐Bianchi|arXiv (Cornell University)|Feb 26, 2015
Advanced Bandit Algorithms Research参考文献 14被引用 55
一句话总结

本文提出了一种在线学习中反馈图的统一框架,将反馈图分类为强可观测、弱可观测和不可观测三类。分别建立了最小最大遗憾界:$ frac{ ilde{ heta}}{ heta}( heta^{1/2}T^{1/2})$、$ frac{ ilde{ heta}}{ heta}( heta^{1/3}T^{2/3})$ 和线性遗憾,揭示了图结构如何决定学习难度,并扩展至时变反馈图,在知情与非知情设置下展现出不同的遗憾行为。

ABSTRACT

We study a general class of online learning problems where the feedback is specified by a graph. This class includes online prediction with expert advice and the multi-armed bandit problem, but also several learning problems where the online player does not necessarily observe his own loss. We analyze how the structure of the feedback graph controls the inherent difficulty of the induced $T$-round learning problem. Specifically, we show that any feedback graph belongs to one of three classes: strongly observable graphs, weakly observable graphs, and unobservable graphs. We prove that the first class induces learning problems with $\widetildeΘ(α^{1/2} T^{1/2})$ minimax regret, where $α$ is the independence number of the underlying graph; the second class induces problems with $\widetildeΘ(δ^{1/3}T^{2/3})$ minimax regret, where $δ$ is the domination number of a certain portion of the graph; and the third class induces problems with linear minimax regret. Our results subsume much of the previous work on learning with feedback graphs and reveal new connections to partial monitoring games. We also show how the regret is affected if the graphs are allowed to vary with time.

研究动机与目标

  • 理解反馈图的结构如何控制在线学习问题的固有难度。
  • 基于其结构特性,将反馈图分类为三类:强可观测、弱可观测和不可观测。
  • 为每一类推导出紧致的最小最大遗憾界,表明独立数 $\alpha$ 和支配数 $\delta$ 如何决定性能。
  • 分析时变反馈图对遗憾的影响,区分知情与非知情观测模型下的表现。
  • 揭示在线学习中反馈图与部分监控博弈之间的联系。

提出的方法

  • 作者将反馈图定义为有向图,其中边表示选择某一动作后可观察到哪些损失。
  • 根据可观测性对图进行分类:若每个节点均可通过路径从自身到达,则为强可观测;若每个节点均可被观测但不一定是自观测,则为弱可观测;否则为不可观测。
  • 对于强可观测图,采用一种改进的指数加权算法,遗憾界为 $ frac{ ilde{ heta}}{ heta}( heta^{1/2}T^{1/2})$,其中 $\alpha$ 为独立数。
  • 对于弱可观测图,提出一种两阶段策略,使用随时间变化的探索集 $D_t$(即最小弱支配集),实现 $ frac{ ilde{ heta}}{ heta}( heta^{1/3}T^{2/3})$ 的遗憾。
  • 通过在每轮更新邻域定义和探索集,将算法推广至时变图,具体取决于图是否事先已知(知情)或仅在动作选择后才知(非知情)。
  • 通过上界与下界证明了紧致的遗憾界,包括非知情弱可观测情形下的新颖下界 $ frac{ heta}{ heta}(K^{1/3}T^{2/3})$。

实验结果

研究问题

  • RQ1反馈图的结构如何影响在线学习中的最小最大遗憾?
  • RQ2在可学习性方面,强可观测、弱可观测和不可观测反馈图有何本质区别?
  • RQ3最小最大遗憾能否以图参数(如独立数 $\alpha$ 和支配数 $\delta$)的形式进行有界?
  • RQ4反馈图的观测时机(知情与非知情)如何影响时变设置下的最小最大遗憾?
  • RQ5当反馈图中缺少自环(即无法观测自身损失)时,探索与观测之间的根本权衡是什么?

主要发现

  • 强可观测图的最小最大遗憾为 $ frac{ ilde{ heta}}{ heta}( heta^{1/2}T^{1/2})$,其中 $\alpha$ 为反馈图的独立数。
  • 弱可观测图的最小最大遗憾为 $ frac{ ilde{ heta}}{ heta}( heta^{1/3}T^{2/3})$,其中 $\delta$ 为最小弱支配集的大小。
  • 不可观测图导致线性最小最大遗憾,表明在此类反馈结构下学习在本质上是不可能的。
  • 在时变弱可观测图的知情模型中,遗憾界为 $ frac{ ilde{ heta}}{ heta}\left(\left(\frac{1}{T}\sum_{t=1}^T \delta_t\right)^{1/3} T^{2/3}\right)$。
  • 在时变弱可观测图的非知情模型中,最小最大遗憾增加至 $ frac{ ilde{ heta}}{ heta}(K^{1/3}T^{2/3})$,该界是紧致的,并与 $ frac{1}{16}K^{1/3}T^{2/3}$ 的下界一致。
  • 本文表明,缺少自环(即无法观测自身损失)会显著增加遗憾,尤其在非知情设置中,玩家必须猜测哪个动作能揭示目标动作的损失。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。