QUICK REVIEW

[논문 리뷰] On the Optimal Sample Complexity for Best Arm Identification

Lijie Chen, Jian Li|arXiv (Cornell University)|2015. 11. 12.

Advanced Bandit Algorithms Research참고 문헌 25인용 수 35

한 줄 요약

이 논문은 새로운 Sign-ξ 문제에 대한 하한을 활용하여 표본 복잡도가 향상된 스토하스틱 다항보상 밴딧에서 최적의 암 식별을 위한 새로운 알고리즘을 제안한다. 이는 Sign-ξ 문제로부터의 감소를 통해 Mannor-Tsitsiklis 하한을 초월하는 최초의 개별 사례 최적 하한을 Best-1-Arm에 확립하며, 최적 표본 복잡도에 대한 추측을 제시한다.

ABSTRACT

We study the best arm identification (BEST-1-ARM) problem, which is defined as follows. We are given $n$ stochastic bandit arms. The $i$th arm has a reward distribution $D_i$ with an unknown mean $μ_{i}$. Upon each play of the $i$th arm, we can get a reward, sampled i.i.d. from $D_i$. We would like to identify the arm with the largest mean with probability at least $1-δ$, using as few samples as possible. We provide a nontrivial algorithm for BEST-1-ARM, which improves upon several prior upper bounds on the same problem. We also study an important special case where there are only two arms, which we call the sign problem. We provide a new lower bound of sign, simplifying and significantly extending a classical result by Farrell in 1964, with a completely new proof. Using the new lower bound for sign, we obtain the first lower bound for BEST-1-ARM that goes beyond the classic Mannor-Tsitsiklis lower bound, by an interesting reduction from Sign to BEST-1-ARM. We propose an interesting conjecture concerning the optimal sample complexity of BEST-1-ARM from the perspective of instance-wise optimality.

연구 동기 및 목표

스토하스틱 다항보상 밴딧에서 Best-1-Arm 문제의 표본 복잡도 상한을 향상시키는 것.
이ter레이티드 로그 법칙을 기반으로 한 새로운 증명 기법을 사용하여, 기본적인 이원 테스트 문제인 Sign-ξ 문제에 대해 더 날카운 하한을 확립하는 것.
Sign-ξ 문제로의 감소를 통해 Best-1-Arm 문제에 대해 새로운 개별 사례 하한을 유도하고, 고전적인 Mannor-Tsitsiklis 하한을 초월하는 것.
개별 사례 최적성 관점에서 Best-1-Arm의 최적 표본 복잡도에 대한 추측을 제안하는 것.
Sign-ξ 문제와 Best-1-Arm 문제 사이의 이론적 분석을 통해 순순수 탐색 밴딧 분야의 이전 결과들을 통합하고 확장하는 것.

제안 방법

신뢰 수준 δ/2^i를 점차 감소시키고 샘플링 속도 r_i = 2^i를 증가시키며, 기본 알고리즘 𝒜의 여러 인스턴스를 실행하는 시뮬레이션 기반 알고리즘 SIM(𝒜_i, r_i)을 도입한다.
라운드 로빈 시뮬레이션 전략을 사용하여, 라운드 r에서 r_i가 r을 나누는 모든 알고리즘 𝒜_i를 인덱스 순서 증가 방향으로 시뮬레이션한다.
각 시뮬레이션 알고리즘에 대해 독립적인 샘플링 스트림을 사용하여 통계적 독립성과 시뮬레이션의 정확성을 보장한다.
모든 알고리즘 𝒜_i가 첫 번째로 종료되고 성공하는 사건 ℱ_i로 확률 공간을 분할함으로써 기대 실행 시간 분석을 가능하게 한다.
합리적인 시간 한계 T에 대해 T(δ/2^i, I) ≤ T(δ, I) · (ln δ^{-1} + i ln 2)/ln δ^{-1}라는 성질을 활용하여 기대 시뮬레이션 시간을 유계화한다.
시뮬레이션된 알고리즘의 엄밀한 기대 실행 시간 상한 O(T(δ, I))를 도출하여, δ-정확성 유지 조건 하에 기대-O(T) 시간임을 증명한다.

실험 결과

연구 질문

RQ1개별 사례 최적성 하에 Best-1-Arm 문제의 최적 표본 복잡도는 무엇인가?
RQ2고전적인 ∆^{-2} 하한을 개선하고 로그-로그 보정을 포괄하는 Sign-ξ 문제에 대해 더 날카운 하한을 도출할 수 있는가?
RQ3Sign-ξ 문제를 어떻게 활용하여 Best-1-Arm 문제에 대한 새로운 하한을 도출할 수 있는가?
RQ4이ter레이티드 로그 법칙은 순차적 테스트 문제에 대한 비점근적 하한을 확립하는 데 어떤 역할을 하는가?
RQ5Best-1-Arm에 대한 KKS 하한(O(∑Δ_i^{-2}(ln ln Δ_i^{-1} + ln δ^{-1})))는 개별 사례 최적이며, 만약 그렇다면 어떤 조건에서 성립하는가?

주요 결과

논문은 이터레이티드 로그 법칙을 기반으로 한 새로운 증명 기법을 사용하여, 고전적인 ∆^{-2} 하한을 개선한 Sign-ξ 문제에 대한 새로운 하한을 확립한다. 이는 ln ln ∆^{-1} 요소를 포함한다.
Sign-ξ 문제에 대해 어떤 δ-정확 알고리즘의 기대 표본 복잡도 T_A[Δ]가 lim sup_{Δ→0} T_A[Δ]/(Δ^{-2} ln ln Δ^{-1}) > 0를 만족함을 증명하여, ln ln Δ^{-1} 요소의 必要성 을 확인한다.
Sign-ξ 문제를 Best-1-Arm 문제로 감소시킴으로써, Mannor-Tsitsiklis 하한을 초월하는 Best-1-Arm에 대한 최초의 하한을 도출하며, Δ_{[2]}^{-2} ln ln Δ_{[2]}^{-1} 이 표본 복잡도에 반드시 포함되어야 함을 보여준다.
제안된 알고리즘은 O(∑_{i=2}^n Δ_{[i]}^{-2}(ln ln Δ_{[i]}^{-1} + ln δ^{-1}))의 표본 복잡도를 달성하며, 최고의 알려진 상한(KKS 하한)과 일치하여 근사 최적성을 시사한다.
모든 약한 기대-T-시간 δ-정확 알고리즘을 기대-O(T)-시간 δ-정확 알고리즘으로 변환하는 시뮬레이션 기반 변환을 도입하여, 강력한 알고리즘의 효율적 구축을 가능하게 한다.
Best-1-Arm의 최적 표본 복잡도가 Ω(∑_{i=2}^n Δ_{[i]}^{-2} (ln ln Δ_{[i]}^{-1} + ln δ^{-1}))임을 추측하며, 이는 개별 사례 최적성을 확립할 것이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.