Skip to main content
QUICK REVIEW

[논문 리뷰] Model Selection for Contextual Bandits

Dylan J. Foster, Akshay Krishnamurthy|arXiv (Cornell University)|2019. 12. 01.
Advanced Bandit Algorithms Research인용 수 30
한 줄 요약

이 논문은 최적 정책 차원 $d_{m^\star}$에 대한 사전 지식 없이 $˜{O}(T^{2/3}d^{1/3}_{m^\star})$의 손실을 달성하는 선형 연속적 밴디트 모델 선택 알고리즘을 제안한다. 이는 표준 매개변수 학습보다 더 빠르게 수렴하는 새로운 갭 추정기의 사용에 기반한다. 이는 부분 피드백이 존재하는 연속적 밴디트에 대해 비어 있지 않은 모델 선택 결과로 처음으로 이뤄진 것이다.

ABSTRACT

We introduce the problem of model selection for contextual bandits, where a learner must adapt to the complexity of the optimal policy while balancing exploration and exploitation. Our main result is a new model selection guarantee for linear contextual bandits. We work in the stochastic realizable setting with a sequence of nested linear policy classes of dimension $d_1 < d_2 < \ldots$, where the $m^\star$-th class contains the optimal policy, and we design an algorithm that achieves $ ilde{O}l(T^{2/3}d^{1/3}_{m^\star})$ regret with no prior knowledge of the optimal dimension $d_{m^\star}$. The algorithm also achieves regret $ ilde{O}(T^{3/4} + \sqrt{Td_{m^\star}})$, which is optimal for $d_{m^{\star}}\geq{}\sqrt{T}$. This is the first model selection result for contextual bandits with non-vacuous regret for all values of $d_{m^\star}$, and to the best of our knowledge is the first positive result of this type for any online learning setting with partial information. The core of the algorithm is a new estimator for the gap in the best loss achievable by two linear policy classes, which we show admits a convergence rate faster than the rate required to learn the parameters for either class.

연구 동기 및 목표

  • 최적 정책 복잡도가 알려져 있지 않은 연속적 밴디트에서의 모델 선택 문제를 해결하기 위해.
  • 그 정책의 차원에 대한 사전 지식 없이도 진정한 복잡도에 적응하는 알고리즘을 설계하기 위해.
  • 최적 차원 $d_{m^\star}$의 모든 값에 대해 비어 있지 않은 손실 한계를 달성하기 위해.
  • 부분 정보가 존재하는 온라인 학습 설정에서 모델 선택 보장을 처음으로 제공하기 위해.

제안 방법

  • 증강된 선형 정책 클래스의 증가하는 차원 $d_1 < d_2 < \ldots$를 가진 확률적 실현 가능한 설정에서 알고리즘이 작동한다.
  • 연속된 정책 클래스 간 최소 달성 가능한 손실의 갭을 위한 새로운 추정기를 사용한다.
  • 이 갭 추정기는 어느 정책 클래스의 매개변수를 학습하는 데 필요한 속도보다 더 빠르게 수렴한다.
  • 탐색과 이용의 균형을 이루기 위해 추정된 갭에 기반해 정책 클래스들 사이에서 동적으로 선택한다.
  • 알고리즘은 $d_{m^\star}$를 알지 못하더라도 $\tilde{O}(T^{2/3}d^{1/3}_{m^\star})$의 손실을 달성하며, $d_{m^\star} \geq \sqrt{T}$일 경우 $\tilde{O}(T^{3/4} + \sqrt{Td_{m^\star}})$의 손실을 달성한다.
  • 이 방법은 $d_{m^\star}$의 모든 값에 대해 비어 있지 않은 손실을 보장하며, 작은 값과 큰 값의 영역 모두 포함된다.

실험 결과

연구 질문

  • RQ1최적 정책 차원에 대한 사전 지식 없이도 연속적 밴디트에서 모델 선택을 달성할 수 있는가?
  • RQ2복잡도가 알려져 있지 않은 내재된 선형 클래스의 순차적 집합에서 최적 정책이 존재할 경우 어떤 손실 한계를 달성할 수 있는가?
  • RQ3모든 $d_{m^\star}$ 값에 대해 비어 있지 않은 손실을 가지는 모델 선택 알고리즘을 설계할 수 있는가?
  • RQ4이 설정에서 정책 클래스 간 갭 추정기가 매개변수 학습 추정기보다 더 빠르게 수렴할 수 있는가?
  • RQ5제안된 방법은 $d_{m^\star} \geq \sqrt{T}$와 같은 큰 $d_{m^\star}$에 대해 최적의 손실을 달성하는가?

주요 결과

  • 알고리즘은 최적 차원 $d_{m^\star}$에 대한 사전 지식 없이도 $\tilde{O}(T^{2/3}d^{1/3}_{m^\star})$의 손실을 달성한다.
  • $d_{m^\star} \geq \sqrt{T}$일 경우, $\tilde{O}(T^{3/4} + \sqrt{Td_{m^\star}})$의 손실 한계가 최적이다.
  • 제안된 갭 추정기는 정책 클래스의 매개변수를 학습하는 데 필요한 속도보다 더 빠르게 수렴한다.
  • 이것은 $d_{m^\star}$의 모든 값에 대해 비어 있지 않은 손실을 가지는 연속적 밴디트에 대해 처음으로 이뤄진 모델 선택 결과이다.
  • 이 결과는 부분 피드백이 존재하는 어떤 온라인 학습 설정에서도 처음으로 긍정적인 모델 선택 보장을 제공한다.
  • 이 방법은 복잡도가 알려져 있지 않은 선형 연속적 밴디트에서의 적응형 학습에 새로운 기준을 설정한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.