QUICK REVIEW

[論文レビュー] Online Least Squares Estimation with Self-Normalized Processes: An Application to Bandit Problems

Yasin Abbasi-Yadkori, Dávid Pál|arXiv (Cornell University)|Feb 14, 2011

Advanced Bandit Algorithms Research参考文献 17被引用数 39

ひとこと要約

本稿は、ベクトル値過程における自己正規化マルティングルの尾確率上界を新たに導入し、オンライン最小二乗推定におけるより緊密な信頼集合の構築を可能にする。マルチアームバンディットおよび線形バンディット問題に応用することで、対数因子と定数を削減し、より緊密な高確率的レグレットバウンドを達成し、小さな標本サイズに対しても成立する。

ABSTRACT

The analysis of online least squares estimation is at the heart of many stochastic sequential decision making problems. We employ tools from the self-normalized processes to provide a simple and self-contained proof of a tail bound of a vector-valued martingale. We use the bound to construct a new tighter confidence sets for the least squares estimate. We apply the confidence sets to several online decision problems, such as the multi-armed and the linearly parametrized bandit problems. The confidence sets are potentially applicable to other problems such as sleeping bandits, generalized linear bandits, and other linear control problems. We improve the regret bound of the Upper Confidence Bound (UCB) algorithm of Auer et al. (2002) and show that its regret is with high-probability a problem dependent constant. In the case of linear bandits (Dani et al., 2008), we improve the problem dependent bound in the dimension and number of time steps. Furthermore, as opposed to the previous result, we prove that our bound holds for small sample sizes, and at the same time the worst case bound is improved by a logarithmic factor and the constant is improved.

研究の動機と目的

逐次的意思決定問題における相関データの課題に対処すること。
自己正規化過程を用いたd次元マルティングルの尾確率上界の、新たな自己完備的証明を構築すること。
最小二乗推定のためのより緊密な信頼集合を構築し、バンディットアルゴリズムのパフォーマンスを向上させること。
マルチアームバンディットおよび線形バンディット問題におけるUCBおよびConfidenceBallアルゴリズムのレグレットバウンドを改善すること。
改善されたバウンドが、T ≥ 1のすべての時間ステップで成立することを保証すること。これは、先行研究とは異なり、小さな標本サイズに対しても成立する。

提案手法

自己正規化過程および混合法を活用し、d次元マルティングルの新たな尾確率上界を導出する。
導出された上界を用いて、集中性が向上した最小二乗推定のための信頼集合を構築する。
UCBおよびConfidenceBallアルゴリズムにおける標準的な信頼区間を、新しい信頼集合に置き換える。
線形バンディット設定における共分散行列の固有値を評価するために、行列摂動理論（StewartとSun, 1990）を適用する。
レグレットを共分散行列V_Tの対数行列式に結びつける、新しいレグレット分解を導入する。
対数およびトレースに基づく不等式を用いて、log det(V_T) を非最適行動の回数および時間Tの関数として評価する。

実験結果

リサーチクエスチョン

RQ1自己正規化過程を用いて、ベクトル値マルティングルのより緊密な尾確率上界を導出可能か。これにより、オンライン学習における信頼集合が改善されるか。
RQ2新しい信頼集合は、マルチアームバンディットおよび線形バンディット問題におけるUCBおよびConfidenceBallアルゴリズムのレグレットパフォーマンスにどのように影響するか。
RQ3改善されたレグレットバウンドは、T ≥ 1のすべての時間ステップ、特に小さな標本サイズに対しても高確率的に成立するか。
RQ4対数因子および定数の観点で、問題依存のレグレットバウンドにどの程度の改善が達成されるか。
RQ5本分析は、線形バンディットにおけるDaniら（2008）のO(d²/Δ log³T)の結果よりも緊密なバウンドを導出できるか。

主な発見

提案されたベクトル値マルティングルの尾確率上界は、自己完備的であり、先行研究（RusmevichientongとTsitsiklis, 2010）を含め、より単純かつ緊密である。
修正版UCBアルゴリズムでは、高確率的レグレットがO(K log(1/δ)/Δ)となり、元のUCBのO(K log T/Δ)のバウンドを改善する。
線形バンディット設定では、修正版ConfidenceBallアルゴリズムがO(d log T √T + √(d T log(T/δ)))のレグレットバウンドを達成し、最悪ケースのバウンドを対数因子で改善する。
問題依存のレグレットバウンドは、O(d²/Δ log³T)からO((log T + d log log T)² / Δ)に改善され、定数が小さく、Δに依存する依存性も良好である。
改善されたバウンドは、T ≥ 1のすべての時間ステップで成立する。これは、先行研究が十分に大きなTを必要としていたのとは対照的である。
信頼集合はバンディットを超えて、スリーピングバンディット、一般化線形バンディット、線形制御問題などに応用可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。