Skip to main content
QUICK REVIEW

[論文レビュー] The Many Faces of Exponential Weights in Online Learning

Dirk van der Hoeven, Tim van Erven|arXiv (Cornell University)|Feb 21, 2018
Advanced Bandit Algorithms Research参考文献 27被引用数 53
ひとこと要約

オンライン学習における指数重み付けがガウス事前分布とどのように相互作用するかを理解し、学習率付き線形化損失を用いる lazy および greedy exponential weighting が prior と同じ共分散を持つガウス後方分布を生み出すことを示す。

ABSTRACT

A standard introduction to online learning might place Online Gradient Descent at its center and then proceed to develop generalizations and extensions like Online Mirror Descent and second-order methods. Here we explore the alternative approach of putting Exponential Weights (EW) first. We show that many standard methods and their regret bounds then follow as a special case by plugging in suitable surrogate losses and playing the EW posterior mean. For instance, we easily recover Online Gradient Descent by using EW with a Gaussian prior on linearized losses, and, more generally, all instances of Online Mirror Descent based on regular Bregman divergences also correspond to EW with a prior that depends on the mirror map. Furthermore, appropriate quadratic surrogate losses naturally give rise to Online Gradient Descent for strongly convex losses and to Online Newton Step. We further interpret several recent adaptive methods (iProd, Squint, and a variation of Coin Betting for experts) as a series of closely related reductions to exp-concave surrogate losses that are then handled by Exponential Weights. Finally, a benefit of our EW interpretation is that it opens up the possibility of sampling from the EW posterior distribution instead of playing the mean. As already observed by Bubeck and Eldan, this recovers the best-known rate in Online Bandit Linear Optimization.

研究の動機と目的

  • オンライン学習における指数重み付けがガウス事前分布とどのように相互作用するかを理解する。
  • 損失が線形化されたときに lazy および greedy EW が生成する分布を特徴づける。
  • 得られる後方分布が事前共分散を保持するかどうかを示す。
  • 後方平均と挙動の観点から異なる EW のバリアントを比較する。

提案手法

  • ガウス事前分布 P1(w) = N(w1, σ^2 I) を採用する。
  • 線形化された損失に対して学習率 η_t を用いた lazy および greedy exponential weighting を適用する。
  • 得られる後方分布 Pt を導出し、それらが共分散 σ^2 I のガウス分布であることを示す。
  • 後方平均と EW の更新規則(w_t または ~w_t)との関係を確立する。
  • 分析対象の EW バリアント全体で共分散が事前共分散と一致することを示す。

実験結果

リサーチクエスチョン

  • RQ1オンライン学習設定において lazy および greedy exponential weights はガウス priors とどのように相互作用するのか?
  • RQ2損失が線形化されたとき得られる後方分布は何か?
  • RQ3これらの EW スキームの下で後方の共分散は事前共分散と等しくなるのか?
  • RQ4この枠組みにおいて EW の更新規則と後方平均との関係は何か?

主な発見

  • 線形化された損失を用いた lazy EW および greedy EW はガウス後方分布 Pt を生み出す。
  • 得られるガウス分布はガウス priors、σ^2 I と同じ共分散を持つ。
  • 後方平均はバリアントに応じて ~w_t または w_t に対応することがある。
  • このことは、特定の EW スキームが平均を更新しつつ prior 共分散を保持することを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。