[논문 리뷰] Model Selection for Contextual Bandits
이 논문은 최적 정책 차원 $d_{m^\star}$에 대한 사전 지식 없이 $˜{O}(T^{2/3}d^{1/3}_{m^\star})$의 손실을 달성하는 선형 연속적 밴디트 모델 선택 알고리즘을 제안한다. 이는 표준 매개변수 학습보다 더 빠르게 수렴하는 새로운 갭 추정기의 사용에 기반한다. 이는 부분 피드백이 존재하는 연속적 밴디트에 대해 비어 있지 않은 모델 선택 결과로 처음으로 이뤄진 것이다.
We introduce the problem of model selection for contextual bandits, where a learner must adapt to the complexity of the optimal policy while balancing exploration and exploitation. Our main result is a new model selection guarantee for linear contextual bandits. We work in the stochastic realizable setting with a sequence of nested linear policy classes of dimension $d_1 < d_2 < \ldots$, where the $m^\star$-th class contains the optimal policy, and we design an algorithm that achieves $ ilde{O}l(T^{2/3}d^{1/3}_{m^\star})$ regret with no prior knowledge of the optimal dimension $d_{m^\star}$. The algorithm also achieves regret $ ilde{O}(T^{3/4} + \sqrt{Td_{m^\star}})$, which is optimal for $d_{m^{\star}}\geq{}\sqrt{T}$. This is the first model selection result for contextual bandits with non-vacuous regret for all values of $d_{m^\star}$, and to the best of our knowledge is the first positive result of this type for any online learning setting with partial information. The core of the algorithm is a new estimator for the gap in the best loss achievable by two linear policy classes, which we show admits a convergence rate faster than the rate required to learn the parameters for either class.
연구 동기 및 목표
- 최적 정책 복잡도가 알려져 있지 않은 연속적 밴디트에서의 모델 선택 문제를 해결하기 위해.
- 그 정책의 차원에 대한 사전 지식 없이도 진정한 복잡도에 적응하는 알고리즘을 설계하기 위해.
- 최적 차원 $d_{m^\star}$의 모든 값에 대해 비어 있지 않은 손실 한계를 달성하기 위해.
- 부분 정보가 존재하는 온라인 학습 설정에서 모델 선택 보장을 처음으로 제공하기 위해.
제안 방법
- 증강된 선형 정책 클래스의 증가하는 차원 $d_1 < d_2 < \ldots$를 가진 확률적 실현 가능한 설정에서 알고리즘이 작동한다.
- 연속된 정책 클래스 간 최소 달성 가능한 손실의 갭을 위한 새로운 추정기를 사용한다.
- 이 갭 추정기는 어느 정책 클래스의 매개변수를 학습하는 데 필요한 속도보다 더 빠르게 수렴한다.
- 탐색과 이용의 균형을 이루기 위해 추정된 갭에 기반해 정책 클래스들 사이에서 동적으로 선택한다.
- 알고리즘은 $d_{m^\star}$를 알지 못하더라도 $\tilde{O}(T^{2/3}d^{1/3}_{m^\star})$의 손실을 달성하며, $d_{m^\star} \geq \sqrt{T}$일 경우 $\tilde{O}(T^{3/4} + \sqrt{Td_{m^\star}})$의 손실을 달성한다.
- 이 방법은 $d_{m^\star}$의 모든 값에 대해 비어 있지 않은 손실을 보장하며, 작은 값과 큰 값의 영역 모두 포함된다.
실험 결과
연구 질문
- RQ1최적 정책 차원에 대한 사전 지식 없이도 연속적 밴디트에서 모델 선택을 달성할 수 있는가?
- RQ2복잡도가 알려져 있지 않은 내재된 선형 클래스의 순차적 집합에서 최적 정책이 존재할 경우 어떤 손실 한계를 달성할 수 있는가?
- RQ3모든 $d_{m^\star}$ 값에 대해 비어 있지 않은 손실을 가지는 모델 선택 알고리즘을 설계할 수 있는가?
- RQ4이 설정에서 정책 클래스 간 갭 추정기가 매개변수 학습 추정기보다 더 빠르게 수렴할 수 있는가?
- RQ5제안된 방법은 $d_{m^\star} \geq \sqrt{T}$와 같은 큰 $d_{m^\star}$에 대해 최적의 손실을 달성하는가?
주요 결과
- 알고리즘은 최적 차원 $d_{m^\star}$에 대한 사전 지식 없이도 $\tilde{O}(T^{2/3}d^{1/3}_{m^\star})$의 손실을 달성한다.
- $d_{m^\star} \geq \sqrt{T}$일 경우, $\tilde{O}(T^{3/4} + \sqrt{Td_{m^\star}})$의 손실 한계가 최적이다.
- 제안된 갭 추정기는 정책 클래스의 매개변수를 학습하는 데 필요한 속도보다 더 빠르게 수렴한다.
- 이것은 $d_{m^\star}$의 모든 값에 대해 비어 있지 않은 손실을 가지는 연속적 밴디트에 대해 처음으로 이뤄진 모델 선택 결과이다.
- 이 결과는 부분 피드백이 존재하는 어떤 온라인 학습 설정에서도 처음으로 긍정적인 모델 선택 보장을 제공한다.
- 이 방법은 복잡도가 알려져 있지 않은 선형 연속적 밴디트에서의 적응형 학습에 새로운 기준을 설정한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.