QUICK REVIEW

[論文レビュー] Ordinal optimization - empirical large deviations rate estimators, and stochastic multi-armed bandits

Peter W. Glynn, Sandeep Juneja|arXiv (Cornell University)|Jul 16, 2015

Advanced Bandit Algorithms Research参考文献 18被引用数 30

ひとこと要約

この論文は、標準的なサンプリング手法において順序最適化における誤選択確率が指数関数的に速く減少するとする仮定に挑戦し、無限大の母集団に対しては、$1 - \delta$ の正しさを $O(\log(1/\delta))$ 時間で保証するようなアルゴリズムは存在しないことを示している。また、経験的レート推定器のための大偏差原理を確立し、このような効率的アルゴリズムにおいてモーメント制限が不可欠であることを証明するとともに、多腕バンディット手法が有界モーメントの下で $O(\log(1/\delta))$ のサンプル複雑性を達成できるように適応可能であることを示している。

ABSTRACT

Consider the ordinal optimization problem of finding a population amongst many with the smallest mean when these means are unknown but population samples can be generated via simulation. Typically, by selecting a population with the smallest sample mean, it can be shown that the false selection probability decays at an exponential rate. Lately researchers have sought algorithms that guarantee that this probability is restricted to a small $\delta$ in order $\log(1/\delta)$ computational time by estimating the associated large deviations rate function via simulation. We show that such guarantees are misleading. Enroute, we identify the large deviations principle followed by the empirically estimated large deviations rate function that may also be of independent interest. Further, we show a negative result that when populations have unbounded support, any policy that asymptotically identifies the correct population with probability at least $1-\delta$ for each problem instance requires more than $O(\log(1/\delta))$ samples in making such a determination in any problem instance. This suggests that some restrictions are essential on populations to devise $O(\log(1/\delta))$ algorithms with $1 - \delta$ correctness guarantees. We note that under restriction on population moments, such methods are easily designed. We also observe that sequential methods from stochastic multi-armed bandit literature can be adapted to devise such algorithms.

研究の動機と目的

順序最適化において $O(\log(1/\delta))$ のサンプル複雑性で $1 - \delta$ の正しさを達成することが可能かどうかを調査すること。
シミュレーションベースの選択における経験的レート関数の挙動を大偏差として分析すること。
無限大のサポートを持つ母集団に対して $O(\log(1/\delta))$ のアルゴリズムが存在するかどうかを特定すること。
順序最適化と確率的多腕バンディット手法との関係を調査すること。
効率的で高信頼性の選択が可能となる条件を確立すること。

提案手法

サンプルに基づく推定を用いて、経験的に推定された大偏差レート関数に従う大偏差原理を導出する。
標準的な標本平均選択の下での誤選択確率の減少率を分析し、無限大の母集団では指数的減少が保証されないことを示す。
否定的結果を証明する：無限大のサポートを持つすべてのインスタンスに対して $1 - \delta$ の正しさを達成するいかなる方策も、漸近的に $O(\log(1/\delta))$ より多くのサンプルを必要とする。
有限分散などのモーメント制限の下では、$O(\log(1/\delta))$ のアルゴリズムが可能であり、構築可能であることを確立する。
確率的多腕バンディットの文脈における逐次的サンプリング戦略を適応し、有界モーメントの仮定の下で効率的で高信頼性の選択を達成する。
大偏差理論と集中不等式を用いて、サンプル複雑性と信頼性保証のトレードオフを形式化する。

実験結果

リサーチクエスチョン

RQ1無限大の母集団サポートを持つ順序最適化において、$O(\log(1/\delta))$ のサンプル複雑性を達成できるか？
RQ2シミュレーションベースの選択において、経験的に推定されたレート関数はどのような大偏差挙動を示すか？
RQ3すべての無限大の母集団を持つインスタンスに対して、$O\left(\log(1/\delta)\right)$ 時間で $1 - \delta$ の正しさを保証することは可能か？
RQ4どのようなモーメント条件下で、効率的かつ $O\left(\log(1/\delta)\right)$ のアルゴリズムを構築できるか？
RQ5多腕バンディット戦略は、順序最適化における高信頼性の選択を達成するためにどのように適応可能か？

主な発見

無限大のサポートを持つ母集団に対しては、すべてのインスタンスで $O(\log(1/\delta))$ のサンプル数で $1 - \delta$ の正しさを達成できる方策は存在せず、文脈の一般的な仮定を覆す。
経験的に推定された大偏差レート関数は、明確な大偏差原理に従うことが示され、統計的学習の文脈において独立に興味深い可能性を示している。
有限分散などの有界モーメント条件の下では、$1 - \delta$ の正しさ保証を持つ $O(\log(1/\delta))$ のアルゴリズムを構築可能である。
確率的多腕バンディット理論からの逐次的サンプリング手法を適応することで、順序最適化における効率的で高信頼性の選択を達成できる。
一般的に無限大の母集団では、誤選択確率が指数関数的に速く減少しないことが示され、標準的推定器の信頼性が損なわれる。
この論文は、無限大の母集団に対しては $O(\log(1/\delta))$ を超えるサンプル複雑性の下限を確立し、モーメント制限の必要性を強調している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。