Skip to main content
QUICK REVIEW

[논문 리뷰] Thompson Sampling for Contextual Bandits with Linear Payoffs

Shipra Agrawal, Navin Goyal|arXiv (Cornell University)|2012. 09. 15.
Advanced Bandit Algorithms Research참고 문헌 30인용 수 547
한 줄 요약

이 논문은 선형 수익 함수를 가진 컨텍스트 밴딧 문제에 대해 일반화된 톰슨 샘플링 알고리즘을 제안하고 분석한다. 가우시안 사전분포와 우도를 사용하여 탐색과 이용의 균형을 이룬다. 이는 $ frac{1}{2}$-확률적 리그레트 한계 $ ilde{O}(d^{3/2} frac{1}{2})$를 처음으로 확립하며, 계산적으로 효율적인 알고리즘의 최고 성능과 일치하고 정보 이론적 하한선에 $ frac{1}{2}$의 요소 내에 있다.

ABSTRACT

Thompson Sampling is one of the oldest heuristics for multi-armed bandit problems. It is a randomized algorithm based on Bayesian ideas, and has recently generated significant interest after several studies demonstrated it to have better empirical performance compared to the state-of-the-art methods. However, many questions regarding its theoretical performance remained open. In this paper, we design and analyze a generalization of Thompson Sampling algorithm for the stochastic contextual multi-armed bandit problem with linear payoff functions, when the contexts are provided by an adaptive adversary. This is among the most important and widely studied versions of the contextual bandits problem. We provide the first theoretical guarantees for the contextual version of Thompson Sampling. We prove a high probability regret bound of $ ilde{O}(d^{3/2}\sqrt{T})$ (or $ ilde{O}(d\sqrt{T \log(N)})$), which is the best regret bound achieved by any computationally efficient algorithm available for this problem in the current literature, and is within a factor of $\sqrt{d}$ (or $\sqrt{\log(N)}$) of the information-theoretic lower bound for this problem.

연구 동기 및 목표

  • 스토케스틱 컨텍스트 밴딧 문제에서 선형 수익 함수를 가진 톰슨 샘플링에 대해 이론적 리그레트 보장을 제공하는 것.
  • 실제 성능은 관찰되었지만 이론적 근거가 부족했던 컨텍스트 환경에서 톰슨 샘플링의 성능에 대한 이론적 격차를 메우는 것.
  • 이 문제에 대해 정보 이론적 하한선에 $ frac{1}{2}$ 요소 내에 있거나 그에 근접하는 고확률 리그레트 한계를 확립하는 것.
  • 이전 방법보다 더 단순하고 확장성이 뛰어난 신규한 마팅게일 기반 분석 기법을 개발하는 것.
  • 표준 다중 손잡이 밴딧 설정을 넘어서 선형 모델을 가진 더 복잡한 컨텍스트 설정으로 톰슨 샘플링의 적용 범위를 넓히는 것.

제안 방법

  • 알고리즘은 알려지지 않은 매개변수 $\mu \in \mathbb{R}^d$에 대해 가우시안 사전분포를 사용하고, 컨텍스트 $b_i$가 주어졌을 때 수익에 대해 가우시안 우도 함수를 사용한다.
  • 각 라운드에서 알고리즘은 사후분포에서 매개변수 $\tilde{\mu}(t)$를 샘플링하고 기대 수익 $b_i^T \tilde{\mu}(t)$가 가장 높은 암을 선택한다.
  • 분석은 추정된 매개변수와 진짜 $\mu$ 사이의 이탈을 제어하기 위해 새로운 마팅게일 기반 농도 추론 기법을 사용한다.
  • 핵심 레마들은 가우시안 랜덤 변수의 농도 및 반농도 성질을 확립하여 추정 오차와 리그레트를 제한한다.
  • 리그레트는 사후 분산과 컨텍스트 벡터를 포함하는 항의 합으로 분해되며, 이는 $\ell_2$-노름 농도 부등식을 사용하여 제한된다.
  • 최종 리그레트 한계는 이러한 부등식들을 고확률 농도 부등식(예: 아즈마-후이딩)과 결합하여 유도된다.

실험 결과

연구 질문

  • RQ1톰슨 샘플링은 선형 수익 함수를 가진 컨텍스트 밴딧 문제에서 증명 가능한 낮은 리그레트를 달성할 수 있는가?
  • RQ2이 설정에서 톰슨 샘플링이 달성할 수 있는 가장 날카로운 고확률 리그레트 한계는 무엇인가?
  • RQ3톰슨 샘플링의 리그레트는 정보 이론적 하한선과 다른 최첨단 알고리즘과 비교해 어떻게 되는가?
  • RQ4베이지안 알고리즘인 톰슨 샘플링은 이론적 보장 측면에서 유세프 알고리즘(UKB)과 같은 빈도주의 알고리즘과 비슷한 성능을 낼 수 있는가?
  • RQ5이 분석 기법은 비가우시안 사전분포나 다른 모델 클래스로도 확장 가능한가?

주요 결과

  • 논문은 컨텍스트 선형 밴딧 설정에서 톰슨 샘플링에 대해 고확률 리그레트 한계 $ ilde{O}(d^{3/2} frac{1}{2})$를 확립한다.
  • 이 리그레트 한계는 이 문제에 대해 계산적으로 효율적인 알고리즘 중에서 가장 뛰어난 성능을 달성한다.
  • 한계는 정보 이론적 하한선에 $ frac{1}{2}$ 요소 내에 있어 근사 최적임을 시사한다.
  • 또 다른 리그레트 한계 $ ilde{O}(d\sqrt{T\log N})$도 유도되었으며, 이는 암의 수 $N$에 따라 달라진다.
  • 분석은 실제 수익 분포가 가우시안일 필요가 없으며, 우도와 사전분포가 농도 성질을 만족하는 한 강인하다.
  • 마팅게일 기반 분석 기법은 이전 접근보다 더 단순하고 확장에 더 적합함이 입증되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.