QUICK REVIEW

[論文レビュー] Optimal Best Arm Identification with Fixed Confidence

Aurélien Garivier, Emilie Kaufmann|arXiv (Cornell University)|Feb 15, 2016

Advanced Bandit Algorithms Research参考文献 40被引用数 101

ひとこと要約

本研究は、1パラメータのバンディットにおける最良アーム識別のための厳密な非漸近的下界を導出し、固定信頼設定で漸近的に最適と証明された Track-and-Stop 戦略を導入する。

ABSTRACT

We give a complete characterization of the complexity of best-arm identification in one-parameter bandit problems. We prove a new, tight lower bound on the sample complexity. We propose the `Track-and-Stop' strategy, which we prove to be asymptotically optimal. It consists in a new sampling rule (which tracks the optimal proportions of arm draws highlighted by the lower bound) and in a stopping rule named after Chernoff, for which we give a new analysis.

研究の動機と目的

デルタ-PAC 最良アーム識別のために、1パラメータの指数族に対する正確なサンプル複雑性を特徴づける。
期待サンプル数の厳密で非漸近的な下界を提供する。
下界を漸近的に達成する学習戦略（Track-and-Stop）を提案する。
delta-PAC保証を確保する停止規則とサンプリング方式を分析する。

提案手法

問題特有の特性時間 T*(μ) を含む厳密な下界を、輸送に基づく測度変更を通して導出する。
代替モデル Alt(μ) に対する最適なアームのサンプリング割合 w*(μ) を解く最適化を定義する。
最適な割合を追跡するサンプリング規則と、調整可能なしきい値を持つ Chernoff 型の停止規則からなる Track-and-Stop アルゴリズムを導入する。
経験的平均の収束を保証する探索を強制する2つの追跡方式（C-Tracking と D-Tracking）を提供する。
一般化尤度比統計量 Z_{a,b}(t) を用いて停止則を分析し、閾値 beta(t, delta) が delta-PAC を保証することを示す。
MDL の解釈を提供し、停止挙動を情報理論的符号化の議論につなげる。

実験結果

リサーチクエスチョン

RQ1指数族バンディットにおける delta-PAC 最良アーム識別の期待サンプル複雑性に対する問題依存の正しい下界は何か？
RQ2最適なアームサンプリング割合 w*(μ) および対応する特性時間 T*(μ) をどのように計算できるか？
RQ3実用的な戦略（Track-and-Stop）は delta-PAC 制約を満たしつつ、下界を漸近的に達成できるか？
RQ4広いクラスのバンディットモデルに対して固定信頼性保証を確保するような停止規則とサンプリング規則をどのように設計すべきか？
RQ5統計的、情報理論的、MDL のどの解釈が停止規則を照らし出すか？

主な発見

問題依存の特性時間 T*(μ) を含む、E_μ[τ_δ] に関する厳密で非漸近的下界を確立した。
最適なサンプリング割合 w*(μ) の明示的な特徴付けが与えられ、追跡ベースの戦略が下界を達成できるようにする。
Track-and-Stop 戦略が提案され、delta → 0 の下で delta-PAC 制約の下で漸近的に最適であることを示した。
二つの実用的な追跡方式（C-Tracking と D-Tracking）が、経験的平均を最適割合へ収束させ、delta-PAC を満たすことを証明した。
MDL/情報理論的解釈を持つ Chernoff 型停止規則は、対数因子 log(1/delta) までの期待値で下界を達成する停止時間を生み出す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。