QUICK REVIEW

[논문 리뷰] On the Complexity of Best Arm Identification in Multi-Armed Bandit Models

Emilie Kaufmann, Olivier Cappé|arXiv (Cornell University)|2014. 07. 16.

Advanced Bandit Algorithms Research참고 문헌 38인용 수 704

한 줄 요약

이 논문은 다각도 밴드잇에서 최상의 암을 식별하는 데 있어 고정신뢰도 및 고정예산 설정 모두에서 샘플 복잡도에 대한 첫 번째 분포에 의존하는 하한을 설정하며, 정보 이론적 복잡도 측정법을 도입한다. 이는 고정예산 복잡도가 고정신뢰도 복잡도보다 작을 수 있음을 증명하며, 이는 전체 가설 검정에서의 고전적 행동과 모순된다. 또한 오차 제어가 보장되는 매칭 알고리즘과 향상된 정지 규칙을 제공한다.

ABSTRACT

The stochastic multi-armed bandit model is a simple abstraction that has proven useful in many different contexts in statistics and machine learning. Whereas the achievable limit in terms of regret minimization is now well known, our aim is to contribute to a better understanding of the performance in terms of identifying the m best arms. We introduce generic notions of complexity for the two dominant frameworks considered in the literature: fixed-budget and fixed-confidence settings. In the fixed-confidence setting, we provide the first known distribution-dependent lower bound on the complexity that involves information-theoretic quantities and holds when m is larger than 1 under general assumptions. In the specific case of two armed-bandits, we derive refined lower bounds in both the fixed-confidence and fixed-budget settings, along with matching algorithms for Gaussian and Bernoulli bandit models. These results show in particular that the complexity of the fixed-budget setting may be smaller than the complexity of the fixed-confidence setting, contradicting the familiar behavior observed when testing fully specified alternatives. In addition, we also provide improved sequential stopping rules that have guaranteed error probabilities and shorter average running times. The proofs rely on two technical results that are of independent interest : a deviation lemma for self-normalized sums (Lemma 19) and a novel change of measure inequality for bandit models (Lemma 1).

연구 동기 및 목표

고정신뢰도 및 고정예산 설정이라는 두 가지 표준 설정 하에서 스위치 다각도 밴드잇 모델에서 최상의 암 식별의 샘플 복잡도를 체계화하고 비교하는 것.
정보 이론적 발산을 사용하여, m개의 최상의 암을 식별할 때 고정신뢰도 설정에서의 첫 번째 분포에 의존하는 복잡도 하한을 유도하는 것.
고정예산 복잡도가 고정신뢰도 복잡도보다 엄격히 작을 수 있으며, 이는 전체 대립 검정에서의 고전적 통찰과 도전하는 것.
오차 확률을 보장하고 기대 실행 시간을 최소화하는 데 목적이 있는 매칭 알고리즘과 향상된 순차적 정지 규칙을 설계하는 것.
두 가지 새로운 기술 도구를 수립하는 것: 자기정규화된 합에 대한 편차 보조정 정리와 밴드잇 모델에 대한 측도 전환 부등식으로, 각각 독립적인 관심사가 있음.

제안 방법

고정신뢰도 설정과 고정예산 설정에 대해 각각 $\kappa_C(\nu)$와 $\kappa_B(\nu)$라는 두 가지 복잡도 측정법을 도입하며, 이는 渐近적 샘플 복잡도와 실패 확률 감쇠 속도를 기반으로 한다.
정보 이론적 발산을 사용하여, 미묘한 가정 하에 $m \geq 1$ 인 경우 $\kappa_C(\nu)$에 대한 일반적인 하한을 도출한다.
두 암 밴드잇에 적용하여, 두 설정 모두에서 개선된 하한을 도출하고 가우시안 및 베르누이 모델에 대한 매칭 알고리즘을 구성한다.
다른 밴드잇 모델에서의 가능도를 비교하기 위해 새로운 측도 전환 부등식(보조정 정리 1)을 제안하여 날카로운 하한을 가능하게 한다.
순차 분석에서 꼬리 확률을 제어하기 위해 자기정규화된 합에 대한 편차 보조정 정리(보조정 정리 7)를 개발한다.
유도된 복잡도 하한을 활용하여 오차 확률 $\delta$를 보장하고 기대 정지 시간을 최소화하는 데 목적이 있는 향상된 순차적 정지 규칙을 설계한다.

실험 결과

연구 질문

RQ1스위치 다각도 밴드잇 모델에서 고정신뢰도 및 고정예산 설정 하에서 m개의 최상의 암을 식별하는 데 있어 기본적인 샘플 복잡도 한계는 무엇인가요?
RQ2고정예산 복잡도가 고정신뢰도 복잡도보다 작을 수 있으며, 만약 그렇다면 어떤 조건에서 그러한 일이 일어나나요?
RQ3m ≥ 1 인 경우 최상의 암 식별에 대해 샘플 복잡도에 대한 가장 날카로운 분포에 의존하는 하한은 무엇인가요?
RQ4오차 확률 $\delta$를 보장하면서 기대 실행 시간을 최소화하는 순차적 정지 규칙은 어떻게 설계할 수 있나요?
RQ5이 설정에서 날카로운 하한을 도출하는 데에 기여하는 핵심 기술 도구는 무엇인가요?

주요 결과

논문은 m ≥ 1 인 경우 최상의 암 식별에 대해 $\kappa_C(\nu)$에 대한 첫 번째 분포에 의존하는 하한을 도입하며, 이는 정보 이론적 발산을 기반으로 한다.
두 암 밴드잇의 경우, 고정예산 복잡도 $\kappa_B(\nu)$는 고정신뢰도 복잡도 $\kappa_C(\nu)$보다 엄격히 작을 수 있으며, 이는 전체 대립 검정에서의 고전적 행동과 모순된다.
가우시안 및 베르누이 밴드잇에 대해 유도된 하한을 달성하는 매칭 알고리즘이 구성되었으며, 이는 하한의 날카로움을 확인한다.
오차 발생 확률이 최대 $\delta$ 이하임을 보장하고 최적의 기대 정지 시간에 상수 요인 내에서 도달하는 향상된 순차적 정지 규칙이 제안되었다.
매칭 알고리즘을 통한 하한의 날카로움이 입증되어, 두 설정 모두에 대해 정확한 渐近적 샘플 복잡도가 확립되었다.
두 가지 새로운 기술 도구—보조정 정리 7(자기정규화된 합에 대한 편차 보조정 정리)와 보조정 정리 1(측도 전환 부등식)—이 개발되었으며, 이는 밴드잇 이론에서 독립적인 관심사로 입증되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.