Skip to main content
QUICK REVIEW

[논문 리뷰] Batched Multi-armed Bandits Problem

Zijun Gao, Yanjun Han|arXiv (Cornell University)|2019. 04. 03.
Advanced Bandit Algorithms Research참고 문헌 34인용 수 42
한 줄 요약

본 논문은 Batch된 연쇄 제거 정책인 BaSE를 도입합니다. 이 정책은 배치된 멀티팔 암 MAB에서 거의 최적의 미니맥스 및 문제 의존적 후회율을 달성하고, 고정 격과 적응 격에 대한 일치하는 하한을 보입니다.

ABSTRACT

In this paper, we study the multi-armed bandit problem in the batched setting where the employed policy must split data into a small number of batches. While the minimax regret for the two-armed stochastic bandits has been completely characterized in \cite{perchet2016batched}, the effect of the number of arms on the regret for the multi-armed case is still open. Moreover, the question whether adaptively chosen batch sizes will help to reduce the regret also remains underexplored. In this paper, we propose the BaSE (batched successive elimination) policy to achieve the rate-optimal regrets (within logarithmic factors) for batched multi-armed bandits, with matching lower bounds even if the batch sizes are determined in an adaptive manner.

연구 동기 및 목표

  • 데이터가 배치로 도착하는 제한된 상호작용 라운드에서 학습을 동기화합니다.
  • K 팔, M 배치, 그리고 수평선 T의 함수로 미니맥스 및 문제 의존적 후회를 특성화합니다.
  • 배치 제약하에서 다항로그 요인 내에서 비율 최적의 후회를 달성하는 정책들을 개발합니다.

제안 방법

  • 사전 탐색을 첫 M-1 배치에서 수행하고 마지막 배치에서 커밋하는 BaSE 기반의 배치 연쇄 제거를 제안합니다.
  • 배치 말단에서 명확히 비최적 팔을 제거하기 위해 간격 의존적 신뢰구간이 있는 활성 팔 제거를 사용합니다.
  • 상한을 증명하기 위한 두 가지 고정 격(최대 미니맥스 격 및 기하학적 격)을 제공하고, 그 격들 아래의 후회 상한을 분석합니다.
  • M이 T와 함께 증가할 때 BaSE가 알려진 완전 적응 속도에 맞춰(다항로그 요인 내에서) 상한을 달성함을 보입니다.
  • 정적 격과 일반 적응 격에 대한 하한을 도출하여 미니맥스 및 문제 의존적 한계를 확립합니다.

실험 결과

연구 질문

  • RQ1배치 수 M이 K-팔 배치 밴딧의 미니맥스 및 문제 의존적 후회에 어떤 영향을 미치는가?
  • RQ2배치 정책이 완전 적응 속도에 근접할 수 있는가, 이를 달성하기 위해 어떤 격(정적/적응)이 필요한가?
  • RQ3정적 격 및 적응 격 아래의 배치 MAB에 대한 기본 하한은 무엇인가?
  • RQ4이 설정에서 적응 배치 크기가 고정 격에 비해 의미 있는 개선을 제공하는가?

주요 결과

  • 임의의 K≥2, T≥1, 1≤M≤T에 대해 BaSE 정책은 E[R_T] ≤ polylog(K,T) · sqrt(K) · T^{1/(2−2^{1−M})} (minimax 격) 를 달성하는 경우가 있다.
  • 동일 설정에서 BaSE는 E[R_T] ≤ polylog(K,T) · (K T^{1/M}) / min_{i≠*} Δ_i (기하 격)을 달성한다.
  • 결론: M = O(log log T) 배치는 미니맥스 후회 Θ(√(K T))에 충분하고 M = O(log T) 배치는 문제 의존적 후회 Θ(K log T) (로그 항수에 의해) 에 충분하다.
  • 고정 격에 대한 하한은 R_min−max ≥ c √K · T^{1/(2−2^{1−M})} 및 R_pro−dep ≥ c K · T^{1/M}를 제공합니다.
  • 적응 격은 하한에서 다항식 M^{-2} 요인을 수반하여 R_min−max ≥ c M^{-2} √K · T^{1/(2−2^{1−M})} 및 R_pro−dep ≥ c M^{-2} K · T^{1/M}를 야기합니다(여전히 정적 격 하한에 비해 다항로그적으로 근접합니다).
  • 결론: Ω(log log T) 배치는 미니맥스 최적화에 필요하고, Ω(log T / log log T)은 어떤 격 유형에서도 문제 의존적 최적화에 필요합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.