QUICK REVIEW

[論文レビュー] Improved Regret Bounds for Projection-free Bandit Convex Optimization

Dan Garber, Ben Kretzu|arXiv (Cornell University)|Jun 3, 2020

Advanced Bandit Algorithms Research被引用数 7

ひとこと要約

本稿では、期待的に $O(T^{3/4})$ の期待的リグレットを達成する投影自由なアルゴリズムを提示する。このアルゴリズムは、線形最適化オラクルを期待的に $O(T)$ 回のみ呼び出す。条件付き勾配更新と新規の解析技術を活用することで、完全情報設定における既存の最良のリグレットバウンドに一致し、高次元のオンライン学習に対してスケーラブルな解決策を提供する。

ABSTRACT

We revisit the challenge of designing online algorithms for the bandit convex optimization problem (BCO) which are also scalable to high dimensional problems. Hence, we consider algorithms that are extit{projection-free}, i.e., based on the conditional gradient method whose only access to the feasible decision set, is through a linear optimization oracle (as opposed to other methods which require potentially much more computationally-expensive subprocedures, such as computing Euclidean projections). We present the first such algorithm that attains $O(T^{3/4})$ expected regret using only $O(T)$ overall calls to the linear optimization oracle, in expectation, where $T$ is the number of prediction rounds. This improves over the $O(T^{4/5})$ expected regret bound recently obtained by \cite{Karbasi19}, and actually matches the current best regret bound for projection-free online learning in the extit{full information} setting.

研究の動機と目的

計算的に高価なプロジェクションを避ける、バンドイット凸最適化のスケーラブルなオンラインアルゴリズムの設計。
より挑戦的であるバンドイット設定における、投影自由なオンライン学習のリグレットバウンドの低減。
完全情報設定における現在の最良のリグレットバウンドに一致させつつ、線形最適化オラクルを用いて計算効率を維持する。
$O(T^{3/4})$ の期待的リグレットと $O(T)$ のオラクル呼び出しを達成する、初めての投影自由なバンドイット凸最適化アルゴリズムの提供。

提案手法

アルゴリズムは、プロジェクションではなく線形最適化オラクルに依存する条件付き勾配法を用い、高次元問題へのスケーラビリティを実現する。
関数値のみが観測可能なバンドイットフィードバック設定におけるリグレットを制御するための新規な解析フレームワークを導入する。
勾配推定値を確率的バンドイットフィードバックから得る、探索と活用のバランスをとった洗練された探索戦略を採用する。
プロジェクションを計算せずに妥当性を維持するため、ダブルアベーリージング風の更新則と投影自由な更新を組み合わせる。
勾配推定の誤差と目的関数の曲率の両方を、リグレット解析に組み込む。
アルゴリズムは、オラクル呼び出しの回数が時間に対して線形にスケーリングされ、期待的に $O(T)$ に保たれることを保証し、計算効率を維持する。

実験結果

リサーチクエスチョン

RQ1バンドイット凸最適化のための投影自由なアルゴリズムは、$O(T^{3/4})$ のリグレットバウンドを達成できるか？
RQ2バンドイット設定において、このリグレットバウンドを達成しつつ、$O(T)$ のオラクル呼び出しを維持することは可能か？
RQ3投影自由なバンドイットアルゴリズムの性能は、完全情報設定における現在の最良の結果と比べてどうか？
RQ4プロジェクションなしで、バンドイットフィードバック設定を扱うために必要な新規な解析技術は何か？
RQ5線形最適化オラクルのみを用いて、高次元の意思決定集合への効率的スケーリングは可能か？

主な発見

提案されたアルゴリズムは、期待的リグレットが $O(T^{3/4})$ を達成し、これは、投影自由なバンドイット凸最適化における現在の最良のリグレットバウンドである。
アルゴリズムは、線形最適化オラクルを期待的に $O(T)$ 回のみ呼び出すため、計算スケーラビリティが保証される。
リグレットバウンドは、完全情報設定における現在の最良の結果に一致し、バンドイットと完全情報の設定における投影自由手法のギャップを埋めている。
バンドイットフィードバック下での勾配推定誤差を扱うために、新規な技術が解析に導入され、同時に投影自由性が保持されている。
本手法は、投影自由なバンドイット凸最適化設定において、$O(T^{3/4})$ のリグレットと $O(T)$ のオラクル呼び出しの両方を達成する最初のアルゴリズムである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。