Skip to main content
QUICK REVIEW

[論文レビュー] Tracking Slowly Moving Clairvoyant: Optimal Dynamic Regret of Online Learning with True and Noisy Gradient

Tianbao Yang, Lijun Zhang|arXiv (Cornell University)|May 15, 2016
Advanced Bandit Algorithms Research参考文献 12被引用数 71
ひとこと要約

本稿は、最適解の変化が時間とともに緩やかであることを示すためのルート変動 $V^{p}_{T}$ を導入し、真の勾配フィードバックおよびノイズのある勾配フィードバックの下で、オンライン凸最適化における最適な動的リグレットバウンドを確立する。提案されたアルゴリズムは、導出された下界に一致するミニマックス最適なリグレットバウンドを達成し、特に二点バンディットフィードバックにおける滑らかな損失関数に対しても、その性能が完全情報フィードバックと同等であることを示している。

ABSTRACT

This work focuses on dynamic regret of online convex optimization that compares the performance of online learning to a clairvoyant who knows the sequence of loss functions in advance and hence selects the minimizer of the loss function at each step. By assuming that the clairvoyant moves slowly (i.e., the minimizers change slowly), we present several improved variation-based upper bounds of the dynamic regret under the true and noisy gradient feedback, which are {\\it optimal} in light of the presented lower bounds. The key to our analysis is to explore a regularity metric that measures the temporal changes in the clairvoyant's minimizers, to which we refer as {\\it path variation}. Firstly, we present a general lower bound in terms of the path variation, and then show that under full information or gradient feedback we are able to achieve an optimal dynamic regret. Secondly, we present a lower bound with noisy gradient feedback and then show that we can achieve optimal dynamic regrets under a stochastic gradient feedback and two-point bandit feedback. Moreover, for a sequence of smooth loss functions that admit a small variation in the gradients, our dynamic regret under the two-point bandit feedback matches what is achieved with full information.

研究の動機と目的

  • 最適意思決定が時間とともにゆっくり変化する場合の、よりタイトな動的リグレットバウンドの開発。
  • 真の勾配、ノイズのある勾配、またはバンディットフィードバックといった、勾配フィードバックの質が動的リグレット性能に与える影響の分析。
  • キーレギュラリティメトリクスとしてのルート変動を導入し、ミニマックス最適なリグレットバウンドの確立。
  • さまざまなフィードバックモデル下での、既存の上界と理論的下界のギャップの解消。
  • 滑らかな損失関数において、二点バンディットフィードバックが完全情報フィードバックと同等の性能を達成できるかどうかの提示。

提案手法

  • 最適解 $\mathbf{w}_{t}^{*}$ の時系列的変化を測る指標として、ルート変動 $V^{p}_{T}$ を導入。
  • ルート変動 $V^{p}_{T}$ のみに依存する動的リグレットの一般下界を導出し、理論的限界を確立。
  • 真の勾配フィードバックに対して、適応的ステップサイズを用いた修正版オンライン勾配降下(OGD)を提案し、滑らかな関数に対して $O(V^{p}_{T})$ のリグレットを達成。
  • Chiangら(2013)のMETAアルゴリズムに基づく二点バンディットフィードバックアルゴリズムを設計し、方向への摂動を用いて勾配を推定。
  • ノイズのあるフィードバック設定において分散を制御するため、有界なノルム $\|\hat{\mathbf{g}}_{t}\|_{2} \leq Gd$ を持つ確率的勾配推定器を採用。
  • 安定性の維持と収束の向上を目的として、収縮する可能性領域 $\Pi_{(1-\xi)\Omega}$ への射影を実施。

実験結果

リサーチクエスチョン

  • RQ1真の勾配フィードバック下で、ルート変動 $V^{p}_{T}$ の観点から、最適な動的リグレットバウンドは何か?
  • RQ2ノイズのある勾配フィードバックは動的リグレットにどのように影響するか? そして、それが最適化可能か?
  • RQ3二点バンディットフィードバックは、完全情報フィードバックと同等のリグレット性能を達成できるか?
  • RQ4勾配変動が小さい滑らかな損失関数に対して、動的リグレットバウンドは何か?
  • RQ5提案された上界は、導出された下界に対してタイトか?

主な発見

  • 本稿は、ルート変動 $V^{p}_{T}$ のみに依存する動的リグレットの一般下界を確立し、追加の仮定がなければ $O(V^{p}_{T})$ が最良のバウンドであることを示している。
  • 定義域内で勾配が消える滑らかな損失関数に対して、提案されたアルゴリズムは真の勾配フィードバック下で $O(V^{p}_{T})$ の動的リグレットを達成し、下界と一致するため、最適性が保証される。
  • 二点バンディットフィードバック下では、動的リグレットが $O(\max(\sqrt{V^{p}_{T}V^{g}_{T}}, V^{p}_{T}))$ で抑えられ、$V^{g}_{T}$ が小さい場合に下界と一致し、最適性が証明される。
  • リプシッツ連続な損失関数に対しては、バンディットフィードバックアルゴリズムが $O(\sqrt{V^{p}_{T}T})$ のリグレットを達成し、確率的勾配フィードバックの性能とオーダーで一致する。
  • 滑らかな関数に対するバンディットフィードバックの動的リグレットバウンドは $O(\max(d^{2}\sqrt{S_{T}\max(B_{T},1)}, d^{3/2}\max(B_{T},1)})$ であり、$V^{p}_{T}$ が支配的である場合に下界と一致する。
  • 結果として、二点バンディットフィードバックがルート変動正則性のもとで、滑らかな関数に対して完全情報フィードバックと同等のオーダーのリグレットを達成できることを示しており、バンディットフィードバックが本質的に劣っているわけではないことが明らかになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。