QUICK REVIEW

[논문 리뷰] What Doubling Tricks Can and Can't Do for Multi-Armed Bandits

Lilian Besson, Emilie Kaufmann|arXiv (Cornell University)|2018. 03. 19.

Advanced Bandit Algorithms Research참고 문헌 19인용 수 56

한 줄 요약

본 논문은 기하급수적 및 지수적 더블링 트릭을 활용해 비-언제나 밴딧 알고리즘을 언제나 가능한 알고리즘으로 바꾸는 것을 분석하고, 기하 트릭은 minimax T^{1/2} 경계를 보존하지만 log T 경계는 보존하지 못하는 반면, 지수 트릭은 log T 경계를 보존할 수 있으며 때로 minimax 성능에 근접할 수 있음을 보인다.

ABSTRACT

An online reinforcement learning algorithm is anytime if it does not need to know in advance the horizon T of the experiment. A well-known technique to obtain an anytime algorithm from any non-anytime algorithm is the "Doubling Trick". In the context of adversarial or stochastic multi-armed bandits, the performance of an algorithm is measured by its regret, and we study two families of sequences of growing horizons (geometric and exponential) to generalize previously known results that certain doubling tricks can be used to conserve certain regret bounds. In a broad setting, we prove that a geometric doubling trick can be used to conserve (minimax) bounds in $R\_T = O(\sqrt{T})$ but cannot conserve (distribution-dependent) bounds in $R\_T = O(\log T)$. We give insights as to why exponential doubling tricks may be better, as they conserve bounds in $R\_T = O(\log T)$, and are close to conserving bounds in $R\_T = O(\sqrt{T})$.

연구 동기 및 목표

horizon T가 알려지지 않았을 때 MAB에서 Anytime 알고리즘의 필요성에 대한 동기 부여.
대응적 및 확률적 MAB 설정에서 더블링 트릭이 후려침( regret) 경사에 어떤 영향을 미치는지 조사.
더블링 시퀀스가 minimax 및 문제 의존적 후려침을 보존하는 경우를 특징화.
후려침 보장과 실용성을 균형 있게 고려하고 파라미터(T0, b, a 등)를 선택하기 위한 가이드라인 제공

제안 방법

Doubling Trick(DT)와 doubling sequence(T_i)를 형식적으로 정의한다.
기하적 doubling 시퀀스를 분석하고 R_T = c T^gamma (log T)^delta + o(...)인 알고리즘에 DT를 적용한 후의 후려침에 대한 상한을 도출한다.
기하 트릭은 로그 로그(logarithmic) 후려침 경향을 보존하지 못한다는 하한을 증명한다.
지수적 doubling 시퀀스를 도입하고 로그 경향을 보존할 수 있으며 때로는 minimax 경향도 보존할 수 있는 상한을 도출한다.
파라미터( T0, b, a 등 )를 조정해 상수를 제어하는 이론적 상수 및 실용적 권고를 제공한다.
AFHG(가우시안) 및 kl-UCB++(Bernoulli)에서의 수치 실험으로 결과를 뒷받침한다.

실험 결과

연구 질문

RQ1하나의 Doubling Trick이 문제 의존적( log T )과 minimax( sqrt(T) ) 두 가지 후려침 경향을 모두 보존할 수 있는가?
RQ2기하적 대 지수적 doubling 트릭을 적용할 때의 상수 차이(상수 인자)들은 어떤 trade-off를 만들어내는가?
RQ3확률적 MAB에서 기하적 트릭은 특정 형태의 후려침만 보존하고 지수적 트릭은 다른 형태를 보존할 수 있는가?
RQ4호라이즌 시퀀스와 시작 파라미터가 실험상의 실험 후려침에 어떤 영향을 미치는가?

주요 결과

기하적 doubling 트릭은 minimax 경계 R_T = O(sqrt(T))를 보존할 수 있지만 O(log T) 형태의 경계를 보존하지는 못한다.
지수적 doubling 트릭은 로그 근사 후려침 R_T = O(log T)를 보존할 수 있으며 경우에 따라 O(sqrt(T)) 경계에 근접할 수 있다.
DT를 적용하면 곱셈적 손실(더블링의 가격)이 존재하지만 T0 및 시퀀스 파라미터를 조정하여 이를 제어할 수 있다.
gamma = 0일 때(로그형 경계) 기하 트릭은 하한이 로그 T의 delta+1에 대한 발산으로 이어지는 경향이 있어 로그형 경계를 보존하는 데 부적합하다.
지수적 트릭은 상수 손실로 R_T = O(log T)를 달성할 수 있으며 gamma > 0일 때는 더 큰 T0로 손실을 줄일 수 있으며 하한은 지수적 트릭이 두 레짐을 더 잘 균형 짓는다는 것을 시사한다.
실험은 Bernoulli와 Gaussian 설정에서 AFHG 및 kl-UCB^{++}에 대한 doubling 트릭의 실용적 영향을 시연한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.