Skip to main content
QUICK REVIEW

[论文解读] Fighting Bandits with a New Kind of Smoothness

Jacob Abernethy, Chansoo Lee|arXiv (Cornell University)|Dec 14, 2015
Advanced Bandit Algorithms Research参考文献 32被引用 20
一句话总结

本文引入了一种新的平滑性性质——微分一致性(differential consistency),统一了对抗性多臂赌博机中正则化与扰动方法的分析。证明了Tsallis熵正则化可实现最优的 $\Theta(\sqrt{TN})$ regret,且具有有界危险率(如Gumbel、Weibull、Pareto、Gamma)分布的基于扰动的算法可实现近似最优的 $O(\sqrt{TN\log N})$ regret。

ABSTRACT

We define a novel family of algorithms for the adversarial multi-armed bandit problem, and provide a simple analysis technique based on convex smoothing. We prove two main results. First, we show that regularization via the \emph{Tsallis entropy}, which includes EXP3 as a special case, achieves the $Θ(\sqrt{TN})$ minimax regret. Second, we show that a wide class of perturbation methods achieve a near-optimal regret as low as $O(\sqrt{TN \log N})$ if the perturbation distribution has a bounded hazard rate. For example, the Gumbel, Weibull, Frechet, Pareto, and Gamma distributions all satisfy this key property.

研究动机与目标

  • 通过一种新的平滑性性质,统一分析对抗性多臂赌博机中正则化与基于扰动的算法。
  • 证明Tsallis熵正则化可实现 $\Theta(\sqrt{TN})$ 的最小最大 regret 率。
  • 识别出基于扰动方法实现 $O(\sqrt{TN\log N})$ regret 的充分条件——有界危险率。
  • 推广EXP3算法,并将其分析扩展到更广泛的分布与算法类别。
  • 推测有界危险率是基于扰动方法实现 $O(\sqrt{T})$ regret 的必要且充分条件。

提出的方法

  • 提出一种名为微分一致性的新平滑性性质,以统一FTRL与FTPL框架的分析。
  • 使用凸平滑化方法分析带有扰动的正则化目标函数的基于梯度的预测算法(GBPA)。
  • 应用定理2.3中的Hessian分析方法,将发散惩罚项用扰动分布的危险率表示。
  • 通过将总 regret 分解为过估计惩罚与发散惩罚,其中后者由危险率的esssup控制,推导出 regret 边界。
  • 利用极值理论计算各种分布(Gumbel、Frechet、Weibull、Pareto、Gamma)下 $N$ 个独立同分布扰动的最大值期望。
  • 采用几何重采样方法降低方差并改善有限样本性能,其中重采样参数为 $M = \sqrt{NT}$。

实验结果

研究问题

  • RQ1能否为对抗性赌博机中的正则化与扰动方法建立统一的分析框架?
  • RQ2Tsallis熵正则化是否可实现 $\Theta(\sqrt{TN})$ 的最小最大 regret 率?
  • RQ3扰动分布的何种性质可确保近似最优的 $O(\sqrt{TN\log N})$ regret?
  • RQ4有界危险率是否为基于扰动方法实现 $O(\sqrt{T})$ regret 的必要且充分条件?
  • RQ5该分析能否扩展到诸如Gumbel、Weibull和Gamma等广泛已知分布的类别?

主要发现

  • Tsallis熵正则化实现了 $\Theta(\sqrt{TN})$ 的最小最大 regret 率,与Audibert和Bubeck(2009)的下界一致,且常数更紧。
  • 具有有界危险率的基于扰动的算法实现了 $O(\sqrt{TN\log N})$ regret,涵盖Gumbel、Weibull、Frechet、Pareto和Gamma分布。
  • regret 边界中的发散惩罚项每轮上界为 $N(\sup h_{\mathcal{D}})$,其中 $h_{\mathcal{D}}$ 为扰动分布的危险率。
  • 对于参数 $\mu=1, \beta=1$ 的Gumbel分布,$N$ 个独立同分布变量的期望最大值为 $\log N + \gamma_0$,贡献于 $O(\sqrt{TN\log N})$ regret 项。
  • 分析表明,具有无界危险率的分布(如正态分布)在某些对抗性序列下可能产生线性 regret,提示有界危险率是关键条件。
  • 推测有界危险率是实现 $O(\sqrt{T})$ regret 的必要且充分条件,且对Frechet和Pareto等分布的数值证据支持该猜想。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。