Skip to main content
QUICK REVIEW

[论文解读] Adaptive Online Learning in Dynamic Environments

Lijun Zhang, Shiyin Lu|arXiv (Cornell University)|Oct 25, 2018
Advanced Bandit Algorithms Research参考文献 14被引用 52
一句话总结

本论文提出了 Ader,一种自适应在线学习方法,在一般动态环境中实现最优的动态遗憾界限,并在改进版本中将每轮的梯度评估下降到1次,并扩展到动态模型。

ABSTRACT

In this paper, we study online convex optimization in dynamic environments, and aim to bound the dynamic regret with respect to any sequence of comparators. Existing work have shown that online gradient descent enjoys an $O(\sqrt{T}(1+P_T))$ dynamic regret, where $T$ is the number of iterations and $P_T$ is the path-length of the comparator sequence. However, this result is unsatisfactory, as there exists a large gap from the $Ω(\sqrt{T(1+P_T)})$ lower bound established in our paper. To address this limitation, we develop a novel online method, namely adaptive learning for dynamic environment (Ader), which achieves an optimal $O(\sqrt{T(1+P_T)})$ dynamic regret. The basic idea is to maintain a set of experts, each attaining an optimal dynamic regret for a specific path-length, and combines them with an expert-tracking algorithm. Furthermore, we propose an improved Ader based on the surrogate loss, and in this way the number of gradient evaluations per round is reduced from $O(\log T)$ to $1$. Finally, we extend Ader to the setting that a sequence of dynamical models is available to characterize the comparators.

研究动机与目标

  • 通过对任意比较序列界定动态遗憾来推动在变化环境下的鲁棒在线学习。
  • 建立一般动态遗憾的严格下界,并开发一个达到匹配上界的算法。
  • 开发一个自适应框架,结合多个在不同路径长度最优的专家。
  • 通过基于代理损失的变体在不牺牲性能的前提下降低梯度查询复杂度。
  • 将该方法扩展到以一系列动态模型来控制比较器的设定。

提出的方法

  • 维护一组在特定路径长度上最优的专家,并行运行它们。
  • 使用元算法(指数加权)在每一轮跟踪最佳专家。
  • 专家算法是具有不同步长的在线梯度下降实例。
  • 引入代理损失,使改进版本中梯度评估从 O(log T) 降到每轮 1 次。
  • 将 Ader 扩展为包含一系列动态模型,并以 P_T′ 表示的项分析遗憾。
  • 给出证明,表明总体动态遗憾界限为 O(sqrt(T(1+P_T)))。

实验结果

研究问题

  • RQ1在在线凸优化中,一般动态遗憾的极小极大下界是什么?
  • RQ2我们是否可以设计一个算法,对任意比较序列实现最优的 O(sqrt(T(1+P_T))) 动态遗憾的自适应?
  • RQ3如何在不牺牲遗憾性能的前提下降低梯度评估次数?
  • RQ4该框架能否容纳一系列动态模型并给出关于 P_T′ 的严格界限?
  • RQ5在保持最优遗憾的前提下,哪些扩展是可行的以处理动态模型?

主要发现

  • Ader 实现了一般动态环境中最优的 O(sqrt(T(1+P_T))) 动态遗憾。
  • 为一般动态遗憾建立了 Omega(sqrt(T(1+P_T))) 的下界。
  • 使用代理损失的改进 Ader 将每轮的梯度评估从 O(log T) 降至 1。
  • 使用代理损失变体时,遗憾界仍然是 O(sqrt(T(1+P_T)))。
  • 扩展到基于收缩的动态模型可得到 O(sqrt(T(1+P_T′))) 的动态遗憾,改进了先前的结果。
  • 界限对比较序列的路径长度具有自适应性,当比较器移动较慢时收缩。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。