[論文レビュー] Sparsity, variance and curvature in multi-armed bandits
本論文は、疎性、低変動、および行動集合の曲率の下での敵対的バンディットにおける後悔の未解決問題を解決し、ほぼ最適な上界を提供する: ell_p ボールに対して p ∈ [1,2] の場合、O~(sqrt{sT}), O~(sqrt{Q}), および O~(sqrt{nT})、さらに p>2 の下界と starved バリアントに対する一致する下界を提示する。
In (online) learning theory the concepts of sparsity, variance and curvature are well-understood and are routinely used to obtain refined regret and generalization bounds. In this paper we further our understanding of these concepts in the more challenging limited feedback scenario. We consider the adversarial multi-armed bandit and linear bandit settings and solve several open problems pertaining to the existence of algorithms with favorable regret bounds under the following assumptions: (i) sparsity of the individual losses, (ii) small variation of the loss sequence, and (iii) curvature of the action set. Specifically we show that (i) for $s$-sparse losses one can obtain $ ilde{O}(\sqrt{s T})$-regret (solving an open problem by Kwon and Perchet), (ii) for loss sequences with variation bounded by $Q$ one can obtain $ ilde{O}(\sqrt{Q})$-regret (solving an open problem by Kale and Hazan), and (iii) for linear bandit on an $\ell_p^n$ ball one can obtain $ ilde{O}(\sqrt{n T})$-regret for $p \in [1,2]$ and one has $ ildeΩ(n \sqrt{T})$-regret for $p>2$ (solving an open problem by Bubeck, Cesa-Bianchi and Kakade). A key new insight to obtain these results is to use regularizers satisfying more refined conditions than general self-concordance
研究の動機と目的
- 限定的 feedback バンディット設定において、疎性、分散、曲率を活用して洗練された後悔境界を動機づける。
- 構造化された損失列と行動セットの下で、敵対的および線形バンディット理論を拡張してより厳密な境界を得る。
- 自己随伴性を超える正則化技術を開発し、達成可能な方向で良好な条件づけを実現する。
- 情報が欠如した(starved)フィードバックモデルを導入・分析し、情報不足の状況を研究する。
提案手法
- FTRL(Follow The Regularized Leader)を、ハイブリッド正則化子 Phi(x) = sum_i x(i) log x(i) - gamma sum_i log x(i) および学習率 eta を用いて適用する。
- heavy uniform exploration を伴わずに損失推定量の分散を制御するソフト探索機構を組み込む。
- 局所ノルム ||ell_t||_{x_t,*} を境界付けする標準の自己随伴性を超える特別な補助定理を用いて正則化子の条件付けを解析する。
- 変分依存境界を疎性と変動設定で実現するために貯水池サンプリング(Hazan-Kale のアイデア)を適用する。
- 3つのシナリオ、疎損失、総変動 ≤ Q、および ell_p^n ボール上の線形バンディット(p ∈ [1,2])で後悔の上界を導出する。
- p>2 に対して下界を示し、starved バンディットの妥当性を確立して結果の鋭さを示す。
実験結果
リサーチクエスチョン
- RQ1損失ベクトルの疎性は、敵対的バンディットにおいて後悔境界を疎性レベル s に一致させられるか(すなわち R_T = ~O(sqrt{sT}))?
- RQ2損失系列の変化が制限されている場合(分散 Q)、マルチアームドバンディットで後悔は ~O~(sqrt{Q}) になるか?
- RQ3ell_p^n ボール上の線形バンディットの minimax 後悔率はどのようになるか、特に p ∈ [1,2] および p>2 について?
- RQ4情報不足(starved)フィードバックモデルは達成可能な後悔にどのような影響を与え、どの p 範囲で sqrt{T}-型の後悔が認められるか?
主な発見
- 損失列の総和が ||ell_t||_2^2 の総和 ≤ L である場合、後悔 R_T ≤ 10 sqrt{L log(n)} + 20 n log(T) を達成するバンディット戦略が存在する。
- 総変動 ≤ Q である損失列に対し、後悔 R_T ≤ C sqrt{Q log(n)} + C n log^2(T) を達成する戦略が存在する。
- p ∈ (1,2] の場合、単位 ell_p^n ボール上の線形バンディットアルゴリズムで R_T ≤ 2^{6/(p-1)} sqrt{nT log T}。
- p>2 の場合、単位 ell_p^n ボール上の任意の線形バンディットアルゴリズムの期待値に対して下界が R_T ≥ C n sqrt{T}(大きな T のとき)である。
- starved なマルチアームドバンディットおよび ell_p^n ボール上の starved 線形バンディットでは sqrt{T}-型の後悔は不可能であり、p ∈ (1,2] の場合には starved 設定で sqrt{T} 後悔が達成可能。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。