QUICK REVIEW

[論文レビュー] Optimal Odd Arm Identification with Fixed Confidence.

Gayathri R Prabhu, Srikrishna Bhashyam|arXiv (Cornell University)|Dec 11, 2017

Advanced Bandit Algorithms Research被引用数 4

ひとこと要約

本稿では、固定信頼度制約の下で、合計コスト（時間＋スイッチングコスト）を最小化する、多腕バンディットにおける奇抜な腕の特定のための逐次的方策を提案する。共役事前分布と一般化尤度比統計量を活用することで、誤検出確率を制御しつつ、合計コストにおいて漸近的最適性を達成する方策を提示する。

ABSTRACT

The problem of detecting an odd arm from a set of K arms of a multi-armed bandit, with fixed confidence, is studied in a sequential decision-making scenario. Each arm's signal follows a distribution from a vector exponential family. All arms have the same parameters except the odd arm. The actual parameters of the odd and non-odd arms are unknown to the decision maker. Further, the decision maker incurs a cost whenever the decision maker switches from one arm to another. This is a sequential decision making problem where the decision maker gets only a limited view of the true state of nature at each stage, but can control his view by choosing the arm to observe at each stage. Of interest are policies that satisfy a given constraint on the probability of false detection. An information-theoretic lower bound on the total cost (expected time for a reliable decision plus total switching cost) is first identified, and a variation on a sequential policy based on the generalised likelihood ratio statistic is then studied. Thanks to the vector exponential family assumption, the signal processing in this policy at each stage turns out to be very simple, in that the associated conjugate prior enables easy updates of the posterior distribution of the model parameters. The policy, with a suitable threshold, is shown to satisfy the given constraint on the probability of false detection. Further, the proposed policy is asymptotically optimal in terms of the total cost among all policies that satisfy the constraint on the probability of false detection

研究の動機と目的

すべての腕が1つの腕を除いてベクトル指数型分布に従う多腕バンディット設定において、奇抜な腕の逐次的検出を扱う。
誤検出の確率に固定信頼度制約を課したもとで、期待決定時間と累積スイッチングコストの和として定義される合計コストを最小化する。
誤検出確率が事前に指定された閾値未満に保たれるように保証しつつ、合計コストにおいて漸近的最適性を達成する方策を開発する。
ベクトル指数型分布の構造を活用し、共役事前分布による効率的なベイズ更新を可能にする。
合計コストの情報理論的下界を確立し、提案方策がこの下界を漸近的に達成することを示す。

提案手法

各段階における腕選択を、一般化尤度比統計量が誘導する。これにより、探索と決定の正確さのバランスが取られる。
各腕のモデルパラメータの事後分布の効率的かつ閉形式での更新を可能にするために、共役事前分布が用いられる。
誤検出確率を制御するため、一般化尤度比の閾値が設定され、固定信頼度制約が満たされる。
奇抜な腕の仮説に関する尤度比が閾値を超えると、同定に十分な信頼度があると判断され、意思決定ルールが終了する。
事後分散と尤度比の増分に基づいて、不要なスイッチを最小限に抑えるように、腕を動的に選択する。
理論的分析では、情報理論的ツールを用いて合計コストの下界を導出し、方策がこの下界を漸近的に達成することを証明する。

実験結果

リサーチクエスチョン

RQ1固定信頼度制約の下で、奇抜な腕を同定するための合計コスト（時間＋スイッチングコスト）の情報理論的下限は何か？
RQ2誤検出確率を制御しつつ、この下限に到達するような逐次的方策をどのように設計できるか？
RQ3ベクトル指数型分布の構造は、逐次学習における効率的かつ扱いやすい事後分布更新をどのように可能にするか？
RQ4共役事前分布の使用は、検出方策の実装と分析をどのように簡素化するか？
RQ5どのような条件下で、提案方策は誤検出制約を満たすすべての方策の中で合計コストについて漸近的最適性を示すか？

主な発見

固定信頼度の下で、奇抜な腕同定問題の合計コスト（期待決定時間＋合計スイッチングコスト）に対する情報理論的下限が導出された。
一般化尤度比統計量と共役事前分布に基づく提案方策は、誤検出確率に関する指定された制約を満たす。
方策は合計コストにおいて漸近的最適性を達成し、信頼度要件が厳しくなるにつれて期待コストが情報理論的下限に収束する。
共役事前分布の使用により、効率的かつ閉形式でのベイズ更新が可能となり、逐次的観測とスイッチングコストの下でも、方策の計算的実行可能性が保証された。
ベクトル指数型分布の仮定により、十分統計量がパラメータ推定に十分であることが保証され、各段階での信号処理が簡素化された。
方策の性能は、奇抜でない腕および奇抜な腕の未知パラメータに対してロバストであり、指数型分布の構造と事前分布の共役性に依存するのみである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。