QUICK REVIEW

[論文レビュー] Almost Optimal Algorithms for Linear Stochastic Bandits with Heavy-Tailed Payoffs

Han Shao, Xiaotian Yu|arXiv (Cornell University)|Jan 1, 2018

Advanced Bandit Algorithms Research被引用数 6

ひとこと要約

本稿では、$1 + \epsilon$ 階のモーメントが有限であるような重たい尾を持つ報酬を持つ線形確率的バンディット問題に対して、2つの新しいアルゴリズムを提案する。報酬のモーメントが $1 + \epsilon$ 階で $\epsilon \in (0,1]$ を満たす条件下で、歴史的データを用いたトレンケーション、アダプティブな意思決定割り当て、およびメジアン・オブ・ミーンズ推定を組み合わせることで、$\Omega(T^{1/(1+\epsilon)})$ の下界に多項対数的要因を除いて一致するレグレットバウンドを達成し、$T$ の多項式的次数において最適性を確立する。

ABSTRACT

In linear stochastic bandits, it is commonly assumed that payoffs are with sub-Gaussian noises. In this paper, under a weaker assumption on noises, we study the problem of \underline{lin}ear stochastic {\underline b}andits with h{\underline e}avy-{\underline t}ailed payoffs (LinBET), where the distributions have finite moments of order $1+\epsilon$, for some $\epsilon\in (0,1]$. We rigorously analyze the regret lower bound of LinBET as $\Omega(T^{\frac{1}{1+\epsilon}})$, implying that finite moments of order 2 (i.e., finite variances) yield the bound of $\Omega(\sqrt{T})$, with $T$ being the total number of rounds to play bandits. The provided lower bound also indicates that the state-of-the-art algorithms for LinBET are far from optimal. By adopting median of means with a well-designed allocation of decisions and truncation based on historical information, we develop two novel bandit algorithms, where the regret upper bounds match the lower bound up to polylogarithmic factors. To the best of our knowledge, we are the first to solve LinBET optimally in the sense of the polynomial order on $T$. Our proposed algorithms are evaluated based on synthetic datasets, and outperform the state-of-the-art results.

研究の動機と目的

報酬分布の尾が重たい場合、特に $1 + \epsilon$ 階のモーメントが有限である場合に、線形確率的バンディットにおける最適性のギャップを解消すること。
この設定におけるタイトなレグレット下界 $\Omega(T^{1/(1+\epsilon)})$ を確立し、既存のアルゴリズムが部分的最適でないことを示すこと。
この下界に多項対数的要因を除いて一致するレグレット上界を達成する新しいバンディットアルゴリズムの設計。
合成実験を通じて提案アルゴリズムの有効性を検証し、最先端手法を上回る性能を示すこと。

提案手法

重たい尾を持つノイズ下でも安定した報酬平均推定を実現するため、メジアン・オブ・ミーンズ推定を採用し、極端値への感受性を低減する。
不確実性と歴史的パフォーマンスに基づいて動的に行動を優先順位付けする、新規な意思決定割り当て戦略を導入する。
観測された報酬の大きさに適応するデータ駆動型トレンケーション機構を適用し、尾の挙動に関する事前知識がなくても耐性を高める。
メジアン・オブ・ミーンズとトレuncated経験的平均推定を組み合わせることで、弱いモーメント仮定下でも安定的かつ正確な報酬推定を保証する。
サブ・ワイブル分布的ノイズを考慮した信頼区間設計を用い、$1+\epsilon$ 階のモーメント下でも高確率的集中を保証する。
新しい推定フレームワーク下で、推定誤差、サンプリングバイアス、分散寄与の3つに分解するレグレット解析を定式化する。

実験結果

リサーチクエスチョン

RQ1報酬分布が $1 + \epsilon$ 階の有限モーメントしか持たない場合、線形確率的バンディットの根本的限界（すなわち、レグレット下界）は何か？
RQ2弱いモーメント仮定下で、重たい尾を持つ報酬に対して耐性があり、近似的に最適なレグレットを達成できるバンディットアルゴリズムはどのように設計できるか？
RQ3$1+\epsilon$ 階のモーメント条件下で、既存の最先端手法（LinBET）は最適性からどの程度かけ離れているか？
RQ4メジアン・オブ・ミーンズ推定とアダプティブなトレンケーションおよび割り当てを組み合わせることで、情報理論的下界に一致するレグレットバウンドが得られるか？
RQ5合成的な重たい尾を持つデータ上で、提案手法は先行手法と比較してどの程度のレグレット性能を示すか？

主な発見

本稿では、$1+\epsilon$ 階のモーメントが有限である重たい尾を持つ報酬を持つ線形確率的バンディットに対して、$\Omega(T^{1/(1+\epsilon)})$ のレグレット下界を確立した。
提案アルゴリズムは、$\widetilde{O}(T^{1/(1+\epsilon)})$ のレグレット上界を達成し、多項対数的要因を除いて下界と一致するため、$T$ の多項式的次数において最適性が証明された。
$\epsilon = 1$（有限分散）の特別な場合、レグレットバウンドは $\widetilde{O}(\sqrt{T})$ に簡略化され、既知のサブ・ガウス結果と整合する。
メジアン・オブ・ミーンズ推定は、標準的な経験的平均推定と比較して、重たい尾のノイズに対して著しく耐性を高める。
歴史的データに基づくアダプティブなトレンケーション機構は、尾のパラメータに関する事前知識がなくても、極端な観測値をフィルタリングすることで性能を向上させる。
合成データセットにおける実験的評価により、提案アルゴリズムが累積レグレットの観点で、既存の最先端手法を上回ることを確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。