QUICK REVIEW

[论文解读] What Doubling Tricks Can and Can't Do for Multi-Armed Bandits

Lilian Besson, Emilie Kaufmann|arXiv (Cornell University)|Mar 19, 2018

Advanced Bandit Algorithms Research参考文献 19被引用 56

一句话总结

本文分析几何倍增技巧和指数倍增技巧，将非 anytime bandit 算法转化为 anytime 算法，展示几何技巧保持 minimax T^{1/2} 上界但不保持 log T 上界，而指数技巧可以保持 log T 上界，且可能接近 minimax 性能。

ABSTRACT

An online reinforcement learning algorithm is anytime if it does not need to know in advance the horizon T of the experiment. A well-known technique to obtain an anytime algorithm from any non-anytime algorithm is the "Doubling Trick". In the context of adversarial or stochastic multi-armed bandits, the performance of an algorithm is measured by its regret, and we study two families of sequences of growing horizons (geometric and exponential) to generalize previously known results that certain doubling tricks can be used to conserve certain regret bounds. In a broad setting, we prove that a geometric doubling trick can be used to conserve (minimax) bounds in $R\_T = O(\sqrt{T})$ but cannot conserve (distribution-dependent) bounds in $R\_T = O(\log T)$. We give insights as to why exponential doubling tricks may be better, as they conserve bounds in $R\_T = O(\log T)$, and are close to conserving bounds in $R\_T = O(\sqrt{T})$.

研究动机与目标

在 T 未知时，动机为何需要 MAB 的 anytime 算法。
研究倍增技巧在对抗性与随机 MAB 设置下对后悔界的影响。
表征哪些倍增序列可以保持 minimax 和问题相关的后悔。
就如何选择倍增方案以平衡后悔保证与实用性提供指导。

提出的方法

形式性地定义倍增技巧（DT）及倍增序列（T_i）。
分析几何倍增序列，并推导应用于具备 R_T = c T^gamma (log T)^delta + o(...) 的算法的后悔上界。
证明下界，表明几何技巧无法保留对数后悔界。
引入指数倍增序列，并推导能够保留对数界，且有时可保留 minimax 界的上界。
给出理论常数以及关于选择参数（T0、b、a 等）的实际建议。
通过在 AFHG (Gaussian) 和 kl-UCB++ (Bernoulli) 上的数值实验来支持结果。

实验结果

研究问题

RQ1单个 Doubling Trick 是否能同时保留问题相关（log T）和 minimax（sqrt(T)）的后悔界？
RQ2应用几何倍增和指数倍增技巧时，恒定因子的权衡是什么？
RQ3在随机 MAB 下，几何技巧是否仅保留某些后悔形式，而指数技巧可以保留其他形式？
RQ4时域序列和起始参数如何影响实验中的实际后悔？

主要发现

几何倍增技巧可以保留 minimax 界 R_T = O(sqrt(T))，但不能保留形如 O(log T) 的界。
指数倍增技巧可以保留对数后悔 R_T = O(log T)，在某些情况下可能接近保留 O(sqrt(T)) 界。
应用 DT 时存在一个乘法常数损失（倍增的代价），可通过调节 T0 与序列参数来控制。
当 γ = 0（对数界）时，几何技巧产生下界，表明会发散到 (log T)^{delta+1}，使其不适合保持对数界。
指数技巧可以在常数损失下实现 R_T = O(log T)，且当 γ > 0 时，增大 T0 可以降低损失；下界表明指数技巧在平衡两类情形上更有优势。
实验展示了倍增技巧在 AFHG 与 kl-UCB^{++} 上在伯努利与高斯设定下的实际影响。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。