QUICK REVIEW

[论文解读] From Bandits to Experts: On the Value of Side-Observations

Shie Mannor, Ohad Shamir|arXiv (Cornell University)|Jun 13, 2011

Advanced Bandit Algorithms Research参考文献 11被引用 68

一句话总结

本文提出了一种通用的在线学习框架，通过允许决策者通过反馈图接收未选择动作的奖励侧信息，在多臂赌博机与专家设置之间进行插值。该文提出了两种算法——ExpBan 和 ELP，其可证明的遗憾界依赖于图论性质（如独立数和团划分数），其中 ELP 在许多情况下（尤其是稀疏图或随机图）实现了更紧的界限。

ABSTRACT

We consider an adversarial online learning setting where a decision maker can choose an action in every stage of the game. In addition to observing the reward of the chosen action, the decision maker gets side observations on the reward he would have obtained had he chosen some of the other actions. The observation structure is encoded as a graph, where node i is linked to node j if sampling i provides information on the reward of j. This setting naturally interpolates between the well-known "experts" setting, where the decision maker can view all rewards, and the multi-armed bandits setting, where the decision maker can only view the reward of the chosen action. We develop practical algorithms with provable regret guarantees, which depend on non-trivial graph-theoretic properties of the information feedback structure. We also provide partially-matching lower bounds.

研究动机与目标

正式化并分析一种通用的在线学习设置，该设置在专家设置（完整奖励反馈）与赌博机设置（仅观测所选动作的奖励）之间进行插值。
将侧信息建模为时变有向图，其中边表示选择某一动作后可获得未选动作的奖励信息。
设计依赖于反馈结构非平凡图论性质的实用算法，并提供可证明的遗憾保证。
为该设置中的遗憾建立匹配或近乎匹配的下界，尤其针对无向图和有向图。
通过实证结果表明，ExpBan 与 ELP 等算法之间的理论性能差距在实践中真实存在且可观测。

提出的方法

反馈结构以有向图序列 $ G_1, \dots, G_T $ 编码，其中边 $ i \to j $ 表示选择动作 $ i $ 会提供动作 $ j $ 奖励的信息。
ExpBan 算法结合了指数加权策略与基于图的探索机制，利用图的团划分数控制遗憾。
ELP 算法提出了一种新方法，基于图的独立数，通过利用非相邻动作的结构实现更紧的遗憾界。
遗憾界通过在线凸优化与图论技术推导得出，对无向图依赖于平均独立数，对有向图依赖于平均团划分数。
通过归约到已知的对抗性赌博机设置，建立了下界，表明对图结构的依赖在信息论上是必要的。
在具有不同边概率的随机 Erdős–Rényi 图上进行实证验证，比较了 ExpBan、ELP 与标准 EXP3 在随机奖励环境下的表现。

实验结果

研究问题

RQ1以有向图建模的侧信息反馈结构，如何影响对抗性在线学习中遗憾的根本极限？
RQ2能否设计出遗憾界依赖于图论性质（如独立数与团划分数）而非动作数 $ k $ 的算法？
RQ3现有算法（如 ExpBan）与新型算法（如 ELP）之间的性能差距有多大？该差距是否在实证性能中体现？
RQ4该反馈结构设置下的理论遗憾界在多大程度上与信息论下界匹配？
RQ5当存在侧信息时，这些算法的性能与标准赌博机算法（如 EXP3）相比如何？

主要发现

对于无向图，信息论最优遗憾由平均独立数 $ \alpha(G) $ 决定，ELP 算法实现 $ \mathcal{O}(\sqrt{\alpha(G) T}) $ 的遗憾界。
对于有向图，ELP 算法实现 $ \mathcal{O}(\sqrt{\alpha(G) T}) $ 的遗憾界，而 ExpBan 的界限依赖于团划分数 $ \bar{\chi}(G) $，当 $ \bar{\chi}(G) \gg \alpha(G) $ 时导致性能差距。
在常数 $ p $ 的随机 Erdős–Rényi 图中，独立数为 $ \mathcal{O}(\log k) $，而团划分数为 $ \Omega(k / \log k) $，导致 ExpBan 与 ELP 之间存在显著的理论差距。
在 300 个节点的随机图上进行的实证结果表明，ELP 在 $ p $ 的中间区间（侧信息有信息量但不冗余）优于 ExpBan 和标准 EXP3。
ExpBan 与 ELP 之间的性能差距并非分析中的伪影，而是实证可观测的，尤其在 $ p \approx 0.1 $ 至 $ 0.3 $ 时，此时 $ \alpha(G) $ 与 $ \bar{\chi}(G) $ 的差异达到最大。
对于完全图，两种算法均实现 $ \mathcal{O}(\sqrt{T}) $ 的遗憾，与专家设置一致；而对于空图，两者均退化为 $ \mathcal{O}(\sqrt{kT}) $，与赌博机设置一致。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。