Skip to main content
QUICK REVIEW

[논문 리뷰] Sequential Batch Learning in Finite-Action Linear Contextual Bandits

Yanjun Han, Zhengqing Zhou|arXiv (Cornell University)|2020. 04. 14.
Advanced Bandit Algorithms Research참고 문헌 55인용 수 31
한 줄 요약

논문은 유한한 행동을 갖는 선형 맥락 밴딧에서 순차 배치 학습을 분석하고, 적대적(adversarial) 및 확률적(stochastic) 맥락 하에서의 리그레트의 상한 및 하한을 도출하며 이에 대응하는 알고리즘을 제안한다.

ABSTRACT

We study the sequential batch learning problem in linear contextual bandits with finite action sets, where the decision maker is constrained to split incoming individuals into (at most) a fixed number of batches and can only observe outcomes for the individuals within a batch at the batch's end. Compared to both standard online contextual bandits learning or offline policy learning in contexutal bandits, this sequential batch learning problem provides a finer-grained formulation of many personalized sequential decision making problems in practical applications, including medical treatment in clinical trials, product recommendation in e-commerce and adaptive experiment design in crowdsourcing. We study two settings of the problem: one where the contexts are arbitrarily generated and the other where the contexts are extit{iid} drawn from some distribution. In each setting, we establish a regret lower bound and provide an algorithm, whose regret upper bound nearly matches the lower bound. As an important insight revealed therefrom, in the former setting, we show that the number of batches required to achieve the fully online performance is polynomial in the time horizon, while for the latter setting, a pure-exploitation algorithm with a judicious batch partition scheme achieves the fully online performance even when the number of batches is less than logarithmic in the time horizon. Together, our results provide a near-complete characterization of sequential decision making in linear contextual bandits when batch constraints are present.

연구 동기 및 목표

  • 배치 종료 시 보상만 관찰되는 순차 배치 학습의 동기를 제시하고 형식화한다.
  • 유한한 행동을 갖는 선형 맥락 밴딧에서 고정된 배치 수 M이 리그레트에 미치는 영향을 특성화한다.
  • 적대적 및 확률적 맥락 설정 모두에 대해 알고리즘을 개발하고 리그레트의 상한 및 하한을 증명한다.

제안 방법

  • M개의 배치로 구성된 격자를 사용하고 배치된 정책을 도입하여 순차 배치 학습을 형식화하고 피드백을 배치 제약으로 확장한다.
  • 배치 말단에서 θ 추정치를 갱신하고 각 배치 내에서 상향 신뢰구간을 사용하는 순차 배치 UCB(SBUCB) 알고리즘을 제안한다.
  • 의존성 문제를 다루는 마스터 알고리즘을 제공하고 신뢰구간의 타당성을 확립한다.
  • 적대적 맥락에 대해 T의 다항 로그(polylog)인 요인과 M에 대한 의존성을 보이는 리그레트의 상한과 하한을 도출한다.
  • 순수 탐욕(pure-exploitation) 알고리즘으로 확률적 맥락을 분석하고 대응하는 리그레트 경계를 도출한다.
  • 문제 의존적 리그레트 경계와 고확률 보장을 제시한다.

실험 결과

연구 질문

  • RQ1적대적 맥락 하에서 피드백을 M개의 배치로 제한하는 것이 유한한 행동의 선형 맥락 밴딧에서의 리그레트에 어떤 영향을 미치는가?
  • RQ2적대적 맥락 설정에서 순차 배치 UCB 알고리즘으로 달성 가능한 근사 최적의 리그레트 비율은 무엇인가?
  • RQ3확률적 맥락은 최적의 배치 전략과 달성 가능한 리그레트를 어떻게 바꾸는가?
  • RQ4최적 리그레트를 얻기 위해 필요한 특정 배치 수의 필요성을 보이는 강한 하한은 무엇인가?
  • RQ5확률적 맥락에서 순수 탐욕 전략은 어떤 성능을 보이며 리그레트 특성은 무엇인가?

주요 결과

  • 적대적 맥락 설정에서 다항로그(T) 배수의 기대 리그레트와 함께 polylog에 비례하고 M에 의존하는 순차 배치 알고리즘이 존재한다.
  • K=2일 때 리그레트가 최소 c*(sqrt(dT) + min{T sqrt(d)/M, T/ sqrt(M)}) 이상이라는 하한이 상한과 다항로그 및 상수 차수까지 일치한다.
  • 이는 완전히 온라인 리그레트를 달성하기 위해 필요한 배치 수가 Theta(sqrt(dT))임을 시사하며, 차원이 낮을 때는 O(sqrt(Td))의 배치로 충분하다.
  • 확률적 맥락 설정에서 순수 탐욕 알고리즘은 폼에 맞춘 악의적 의사 결정 없이도 최소한의 polylog(T) 배치로 민맥스(minimax) 리그레트 tilde Theta(sqrt(dT))를 달성할 수 있다(특히 log log(T/d^2) 근처).
  • 확률적 맥_context에서의 상한 및 하한은 polylog 요인 이내이며, 대적 사례보다 훨씬 적은 배치로 거의 최적의 리그레트를 달성할 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.