QUICK REVIEW

[논문 리뷰] Sparsity, variance and curvature in multi-armed bandits

Sébastien Bubeck, Michael B. Cohen|arXiv (Cornell University)|2017. 11. 03.

Advanced Bandit Algorithms Research참고 문헌 10인용 수 56

한 줄 요약

본 논문은 희소성, 낮은 분산, 그리고 작용 공간의 곡률 하에서 적대적 밴디트의 후회에 관한 미해결 문제들을 해결하고 거의 최적에 가까운 상한을 제시한다: p∈[1,2]인 ell_p 구에서 O~(sqrt{sT}), O~(sqrt{Q}), 그리고 O~(sqrt{nT})를 보여주고, p>2 및 starved 변형에 대해 일치하는 하한도 제시한다.

ABSTRACT

In (online) learning theory the concepts of sparsity, variance and curvature are well-understood and are routinely used to obtain refined regret and generalization bounds. In this paper we further our understanding of these concepts in the more challenging limited feedback scenario. We consider the adversarial multi-armed bandit and linear bandit settings and solve several open problems pertaining to the existence of algorithms with favorable regret bounds under the following assumptions: (i) sparsity of the individual losses, (ii) small variation of the loss sequence, and (iii) curvature of the action set. Specifically we show that (i) for $s$-sparse losses one can obtain $ ilde{O}(\sqrt{s T})$-regret (solving an open problem by Kwon and Perchet), (ii) for loss sequences with variation bounded by $Q$ one can obtain $ ilde{O}(\sqrt{Q})$-regret (solving an open problem by Kale and Hazan), and (iii) for linear bandit on an $\ell_p^n$ ball one can obtain $ ilde{O}(\sqrt{n T})$-regret for $p \in [1,2]$ and one has $ ildeΩ(n \sqrt{T})$-regret for $p>2$ (solving an open problem by Bubeck, Cesa-Bianchi and Kakade). A key new insight to obtain these results is to use regularizers satisfying more refined conditions than general self-concordance

연구 동기 및 목표

제한된 피드백 밴디트 설정에서 희소성, 분산, 곡률을 활용하여 정제된 후회 상한을 동기 부여한다.
구조화된 손실 시퀀스와 작용 집합 하에서 더 촘촘한 상한을 얻기 위해 적대적 및 선형 밴디트 이론을 확장한다.
Self-concordance를 넘어서는 규정화 기술을 개발하여 달성 가능한 방향에서의 잘 조건화를 달성한다.
정보-굶주림(starved) 밴디트 모델을 도입하고 분석하여 정보-결핍 피드백 시나리오를 연구한다.

제안 방법

다시 규정된 리더(Follow The Regularized Leader, FTRL) 를 사용하고 하이브리드 규제기 Phi(x) = sum_i x(i) log x(i) - gamma sum_i log x(i) 및 학습률 eta 를 적용한다.
손실 추정기의 분산을 대규모 균일 탐사 없이 제어하기 위한 소프트 탐사 메커니즘을 도입한다.
로컬 노름 ||ell_t||_{x_t,*} 를 상한하기 위해 전형적인 self-concordance 너머의 맞춤 보조 레마를 통해 규제기의 컨디셔닝을 분석한다.
희소성과 변화 설정에서 변화 의존적 경계를 달성하기 위해 저장소 샘플링(Hazan-Kale 아이디어)을 적용한다.
세 가지 시나리오에 대해 후회 상한을 도출한다: 희소 손실, 총 변화가 Q로 한정된 손실, 그리고 ell_p^n 구( p in [1,2] ) 위의 선형 밴디트.
p>2 및 starved 밴디트에 대해 하한을 제공하여 결과의 밀집성을 확립한다.

실험 결과

연구 질문

RQ1손실 벡터의 희소성이 적대적 밴디트에서 R_T = ~O(sqrt{sT})와 같은 희소성 수준에 대응하는 후회 상한으로 이어질 수 있는가?
RQ2손실 시퀀스의 변화가 한정되어 있을 때(분산 Q), 다중 팔 밴디트에서 후회가 ~O~(sqrt{Q})에 수렴하는가?
RQ3특히 p∈[1,2] 및 p>2인 ell_p^n 구에서 선형 밴디트의 minimax 후회 속도는 어떻게 되는가?
RQ4정보-굶주림(starved) 피드백 모델이 달성 가능한 후회에 어떤 영향을 미치며 어떤 p 구간에서 sqrt{T}-타입의 후회가 허용되는가?

주요 결과

합의된 손실 시퀀스에 대해 R_T ≤ 10 sqrt{L log(n)} + 20 n log(T) 를 달성하는 밴디트 전략이 존재한다(손실의 각 단계의 제곱합이 L 이하).
총 변화가 Q 이하인 손실 시퀀스에 대해 R_T ≤ C sqrt{Q log(n)} + C n log^2(T) 를 달성하는 전략이 존재한다.
p in (1,2]인 경우 단위 ell_p^n 구에서 R_T ≤ 2^{6/(p-1)} sqrt{nT log T}인 선형 밴디트 알고리즘이 존재한다.
p>2인 경우 단위 ell_p^n 구에서 어떤 선형 밴디트 알고리즘이든 기대값으로 R_T ≥ C n sqrt{T}의 하한을 갖는다(large T에 대해).
starved 다중 팔 밴디트 및 ell_p^n 구에서 p>2의 경우 sqrt{T} 유형의 후회는 불가능하며, p in (1,2]에서는 starved 설정에서 sqrt{T} 후회가 달성 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.