QUICK REVIEW

[論文レビュー] On Finding the Largest Mean Among Many

Kevin Jamieson, Matthew Malloy|arXiv (Cornell University)|Jun 17, 2013

Advanced Bandit Algorithms Research参考文献 12被引用数 22

ひとこと要約

この論文は、広範な平均分布の範囲で線形のサンプル複雑性を達成する、新たな適応的アルゴリズムであるPRISMを導入する。非スパースな状況でもギャップが減少する場合でも、適応的戦略はO(n)のサンプル複雑性を達成できることを示し、非適応的手法は最大でΩ(n²α+1)（α > 0）までサンプルを必要とすることがある。これは、非適応的戦略と適応的戦略の間で顕著な効率の差が生じることを示している。

ABSTRACT

Sampling from distributions to find the one with the largest mean arises in a broad range of applications, and it can be mathematically modeled as a multi-armed bandit problem in which each distribution is associated with an arm. This paper studies the sample complexity of identifying the best arm (largest mean) in a multi-armed bandit problem. Motivated by large-scale applications, we are especially interested in identifying situations where the total number of samples that are necessary and sufficient to find the best arm scale linearly with the number of arms. We present a single-parameter multi-armed bandit model that spans the range from linear to superlinear sample complexity. We also give a new algorithm for best arm identification, called PRISM, with linear sample complexity for a wide range of mean distributions. The algorithm, like most exploration procedures for multi-armed bandits, is adaptive in the sense that the next arms to sample are selected based on previous samples. We compare the sample complexity of adaptive procedures with simpler non-adaptive procedures using new lower bounds. For many problem instances, the increased sample complexity required by non-adaptive procedures is a polynomial factor of the number of arms.

研究の動機と目的

最良のアーム特定のサンプル複雑性がアーム数に対して線形にスケーリングする条件を特定すること。
広範な平均分布クラスに対して線形のサンプル複雑性を達成する適応的アルゴリズムを開発すること。
サンプル複雑性の観点から、適応的および非適応的サンプリング戦略のギャップを定量化すること。
最良のアーム特定において、適応的および非適応的プロシージャーのタイトな下界を確立すること。

提案手法

αをパラメータとする単一パラメータモデルを提案し、μ₀ − μᵢ = (i/n)αと定義することで、スパース（α = 0）から非スパース（α > 0）の範囲にわたる平均分布をカバーする。
過去のサンプルに基づいてアームを選択するPRISMと呼ばれる適応的アルゴリズムを導入し、最良のアームを効率的に特定する。
Hoeffdingの不等式と和集合の不等式を用いて、経験的平均推定における誤差の確率を分析する。
非適応的下界を導出し、特定の問題例においてサンプル複雑性がΩ(H log n)およびΩ(Hn)にスケーリングすることを示す。
任意の失敗確率≤ δ を満たすプロシージャーに対して、適応的下界がΩ(H log(1/δ))であることを確立する。
最小ギャップΔ₁が非適応的複雑性に与える影響を分析し、非適応的設定におけるクエリ複雑性を支配することを示す。

実験結果

リサーチクエスチョン

RQ1平均分布にどのような条件下で、最良のアーム特定のサンプル複雑性がアーム数に対して線形にスケーリングするか？
RQ2平均間のギャップがnとともに減少する場合でも、適応的サンプリング戦略は線形のサンプル複雑性を達成できるか？
RQ3サンプル複雑性の観点から、非適応的プロシージャーは適応的プロシージャーよりどれほど悪いのか？
RQ4非適応的最良のアーム特定におけるサンプル複雑性のタイトな下界は何か？
RQ5平均分布モデルにおけるパラメータαは、適応性とサンプル効率性のトレードオフにどのように影響するか？

主な発見

PRISMはO(H log(1/δ))のサンプル複雑性を達成し、α ∈ (0, 1/2)を含む広範な平均分布においてnに線形に依存するスケーリングを実現する。
非適応的プロシージャーにおいては、サンプル複雑性がΩ(H log n)であり、α > 0の場合は最大でΩ(Hn)に達する。これは、適応的手法と比較して多項式的なギャップがあることを示している。
非スパース設定（α > 0）では、非適応的手法はΩ(n²α+1)のサンプルを必要とし、一方PRISMのような適応的手法はO(n)のサンプルで十分である。これは多項式ギャップを示している。
非適応的プロシージャーの下界はHではなく最小ギャップΔ₁によって支配されることを示し、非適応的サンプリングの根本的な制限を強調している。
α = 0（スパースケース）では、非適応的手法はO(n log n)のサンプルを必要とし、適応的手法はO(n)のサンプルで十分である。これはlog nのギャップを示している。
本論文は、多くの現実的な平均構成において、適応的および非適応的戦略の間のギャップが対数的ではなく多項式的にnの関数として生じることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。