QUICK REVIEW

[論文レビュー] A Smoothed Analysis of the Greedy Algorithm for the Linear Contextual Bandit Problem

Sampath Kannan, Jamie Morgenstern|arXiv (Cornell University)|Jan 10, 2018

Advanced Bandit Algorithms Research被引用数 29

ひとこと要約

本稿では、線形文脈的バンディットにおける貪欲アルゴリズムの滑らかさ解析を提示し、悪意ある文脈に対して小さな確率的摂動を加えることで、明示的な探索がなくても貪欲手法がノーレグレット性能を達成できることを示している。主な結果は、一般化（摂動付き）環境下で、貪欲学習が深刻な学習失敗を回避し、活用と長期的学習を効果的にバランスできることである。

ABSTRACT

Bandit learning is characterized by the tension between long-term exploration and short-term exploitation. However, as has recently been noted, in settings in which the choices of the learning algorithm correspond to important decisions about individual people (such as criminal recidivism prediction, lending, and sequential drug trials), exploration corresponds to explicitly sacrificing the well-being of one individual for the potential future benefit of others. This raises a fairness concern. In such settings, one might like to run a "greedy" algorithm, which always makes the (myopically) optimal decision for the individuals at hand - but doing this can result in a catastrophic failure to learn. In this paper, we consider the linear contextual bandit problem and revisit the performance of the greedy algorithm. We give a smoothed analysis, showing that even when contexts may be chosen by an adversary, small perturbations of the adversary's choices suffice for the algorithm to achieve "no regret", perhaps (depending on the specifics of the setting) with a constant amount of initial training data. This suggests that "generically" (i.e. in slightly perturbed environments), exploration and exploitation need not be in conflict in the linear setting.

研究の動機と目的

悪意ある文脈が選ばれる状況下で、公平性の懸念からよく使われる貪欲アルゴリズムが、線形文脈的バンディットでノーレグレット性能を達成できるかどうかを調査すること。
悪意ある文脈に対して小さな確率的摂動を加えることで、探索が不足するため貪欲学習が深刻な失敗を避けることができるかどうかを分析すること。
一般化（わずかに摂動された）環境下で、明示的な探索なしに貪欲アルゴリズムが効果的に学習できることを示し、公平性と長期的学習の緊張を解消すること。
滑らかさ解析下での貪欲学習のレグレットに対する理論的バインディングを確立し、わずかなウォームスタートのみで良好な性能を達成できることを示すこと。

提案手法

本稿では、悪意ある文脈が小さな平均ゼロのガウスノイズ摂動を受ける滑らかさ解析モデルを導入している。
線形報酬関数の最小二乗推定に基づき、予測報酬が最大となる行動を選択する貪欲アルゴリズムを分析している。
推定誤差の初期ウォームスタートフェーズにおけるバインディングに集中不等式を用い、限られたデータのため初期推定がバイアスを持つ可能性があることを示している。
推定器の逸脱に関する確率的議論を用いて、推定誤差による非最適な腕の選択が発生するラウンド数のバインディングを導出している。
これらのバインディングを再帰的議論と組み合わせることで、定数確率で、十分なラウンドを経てアルゴリズムが最終的に最適な腕を選択することを示している。
主な技術的要素は、高確率でアルゴリズムが最適な腕を十分に頻繁に選択することで推定誤差を低減し、初期バイアスを是正できることを示す確率的議論である。

実験結果

リサーチクエスチョン

RQ1悪意ある文脈が選ばれる状況下で、貪欲アルゴリズムは線形文脈的バンディットでノーレグレット性能を達成できるか？
RQ2悪意ある文脈に対して小さな確率的摂動を加えることで、貪欲アルゴリズムが深刻な学習失敗を回避できるか？
RQ3ウォームスタートのサイズと、滑らかさ解析下での貪欲アルゴリズムのレグレットとの間の定量的トレードオフは何か？
RQ4文脈ベクトルの摂動の大きさが、貪欲アルゴリズムの性能にどのように影響するか？
RQ5貪欲アルゴリズムはどのような条件下で初期バイアスを是正し、最適な意思決定に収束するか？

主な発見

悪意ある文脈に対してサイズ $\sigma$ の小さな摂動が加えられた場合、レグレットは $\Omega\left(\epsilon\left(e^{\frac{1}{18\sigma^{2}}}-n^{2/3}\right)\right)$ のオーダーをとる。ここで $\epsilon = \min_i |\beta_i|$ である。
ウォームスタートサイズ $n \leq \frac{1}{2\epsilon}$ の場合、初期推定バイアスのため依然として顕著なレグレットを被るが、$\sigma$ が十分に小さい場合には、このレグレットは $T$ に対して非線形的に増加し、バインディングが付く。
滑らかさのある環境下では、アルゴリズムはノーレグレット性能を達成する。これは、非最適な選択が持続する確率が $\sigma^{-2}$ に反比例して指数的に減少するためである。
分析により、定数確率で、アルゴリズムが最適な腕を十分に頻繁に選択し、推定誤差を低減し初期バイアスを是正することが示された。
主なインサイトは、小さな摂動が、貪欲学習を失敗させる最悪の悪意ある構成を破壊し、最適な意思決定への収束を可能にすることにある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。