QUICK REVIEW

[論文レビュー] On the Complexity of Bandit and Derivative-Free Stochastic Convex Optimization

Ohad Shamir|arXiv (Cornell University)|Sep 11, 2012

Advanced Bandit Algorithms Research参考文献 22被引用数 86

ひとこと要約

この論文は、バンドイットおよび勾配非利用の確率的凸最適化におけるタイトな複雑度バウンドを確立し、強い凸性および滑らかさを満たす関数に対して最適な誤差率が $Ω(\sqrt{d^2/T})$ にスケーリングすることを証明している。また、勾配情報が得られない状況でも二次関数に対して $\mathcal{O}(1/T)$ の高速なレートが達成可能であることを示し、分野における長年の未解決問題を解決した。

ABSTRACT

The problem of stochastic convex optimization with bandit feedback (in the learning community) or without knowledge of gradients (in the optimization community) has received much attention in recent years, in the form of algorithms and performance upper bounds. However, much less is known about the inherent complexity of these problems, and there are few lower bounds in the literature, especially for nonlinear functions. In this paper, we investigate the attainable error/regret in the bandit and derivative-free settings, as a function of the dimension d and the available number of queries T. We provide a precise characterization of the attainable performance for strongly-convex and smooth functions, which also imply a non-trivial lower bound for more general problems. Moreover, we prove that in both the bandit and derivative-free setting, the required number of queries must scale at least quadratically with the dimension. Finally, we show that on the natural class of quadratic functions, it is possible to obtain a "fast" O(1/T) error rate in terms of T, under mild assumptions, even without having access to gradients. To the best of our knowledge, this is the first such rate in a derivative-free stochastic setting, and holds despite previous results which seem to imply the contrary.

研究の動機と目的

次元 $d$ とクエリ数 $T$ の観点から、バンドイットおよび勾配非利用の確率的凸最適化の根本的複雑度を特定すること。
勾配非利用およびバンドイット設定における強い凸性および滑らかさを満たす関数について、既存の上界と下界のギャップを埋めること。
勾配非利用の確率的凸最適化において、$\mathcal{O}(1/T)$ の高速な誤差率が達成可能かどうかを調査すること、特に二次関数に対して。
自然な凸領域上で成り立ち、人工的な仮定を一切含まない、明示的で情報理論的下界を提供すること。
バンドイット最適化（レギュレート最小化）と勾配非利用最適化（誤差最小化）の関係を明確にし、前者が後者よりも厳密に難しいことを示すこと。

提案手法

乱数ベクトル $\mathbf{e} \in \{-\mu, +\mu\}^d$ でパラメータ化された、強い凸性および滑らかさを満たす関数族を構築し、最適解から離れていても関数値がほぼ同一になるように設計する。
関数形 $F_{\mathbf{e}}(\mathbf{w}) = \|\mathbf{w}\|^2 - \sum_{i=1}^d \frac{e_i w_i}{1 + (w_i/e_i)^2}$ を丁寧に設計することで、任意の $\mathbf{w}$ に対して $|F_{\mathbf{e}}(\mathbf{w}) - F_{-\mathbf{e}}(\mathbf{w})| = \Theta(\mu^2)$ が成り立つようにし、関数クエリによる $\mathbf{e}$ と $-\mathbf{e}$ の区別が困難になるようにする。
$\mathbf{e}$ の確率的選択に対するミニマックス議論を用いて、期待最適化誤差の下界を導出し、それが少なくとも $\Omega(\sqrt{d^2/T})$ であることを示す。
二次関数に対しては、勾配非利用設定でも $\mathcal{O}(1/T)$ の誤差率が達成可能であることを示し、新しいアルゴリズム的構成を用いる。
二次関数の場合、関数構造のおかげで勾配情報がなくても、ノイズのある関数評価のもとで最小値を効率的に推定可能であることに着目する。
バンドイットおよび勾配非利用設定を比較し、バンドイット設定が厳密に難しいことを示し、下界は両者に共通するが、上界はバンドイット設定の方が大きい。

実験結果

リサーチクエスチョン

RQ1勾配非利用の確率的凸最適化において、強い凸性および滑らかさを満たす関数に対して、最適に達成可能な誤差率は何か？
RQ2勾配情報が完全に欠落している状況でも、勾配非利用の確率的凸最適化において $\mathcal{O}(1/T)$ の高速な誤差率が達成可能か？
RQ3バンドイットおよび勾配非利用設定において、必要なクエリ数は次元 $d$ に対してどのようにスケーリングされるか？
RQ4バンドイット最適化と勾配非利用最適化の性能に、明示的なギャップがあるか。その場合、その起源は何か？
RQ5自然な凸領域上でのこれらの問題に対する、最もタイトな情報理論的下界は何か？

主な発見

強い凸性および滑らかさを満たす関数に対する、勾配非利用の確率的凸最適化における最適誤差率は $\Omega(\sqrt{d^2/T})$ であり、定数倍の違いを除いて既知の上界と一致する。
二次関数に対しては、勾配非利用設定でも $\mathcal{O}(1/T)$ の高速な誤差率が達成可能である—これは勾配非利用の確率的設定において、初めてのこのような結果である。
バンドイットおよび勾配非利用設定の両方において、関数パラメータをノイズのある関数値から区別する難易度のため、必要なクエリ数は次元 $d$ に対して少なくとも2乗的にスケーリングされる必要がある。
バンドイット設定は勾配非利用設定よりも厳密に難しい。同じ下界が両者に適用可能であるが、既知の最良上界はバンドイット設定の方が大きい。
下界構成では、競合するパラメータ間の関数値の差が、どこにいても $\Theta(\mu^2)$ に保たれる関数族が用いられ、多数のクエリがあっても効率的な区別が不可能である。
本論文は、二次関数に対して勾配非利用設定でも $\mathcal{O}(1/T)$ のレートが達成可能であることを示し、従来の結果がこれを排除すると見なされていた長年の未解決問題を解決した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。