Skip to main content
QUICK REVIEW

[논문 리뷰] Model Selection in Contextual Stochastic Bandit Problems

Aldo Pacchiano, My V. T. Phan|arXiv (Cornell University)|2020. 03. 03.
Advanced Bandit Algorithms Research참고 문헌 20인용 수 23
한 줄 요약

이 논문은 기저 알고리즘에 새로운 스무딩 변환을 적용함으로써 최적의 $O(\sqrt{T})$ 복귀 보장이 가능한, 문맥적 스토하스틱 밴딧에서 모델 선택을 위한 메타알고리즘 프레임워크를 제안한다. 이 방법은 일반적인 기저 알고리즘 클래스와 함께 작동하며, 최적의 기저 알고리즘이 로그 복귀를 가질 경우에도 근사 최적의 성능을 달성한다. 이는 모델 선택에 대해 기본적인 $\Omega(\sqrt{T})$ 하한선을 따르며, 이는 기저 알고리즘의 성능을 초월할 수 없다는 것을 의미한다.

ABSTRACT

We study bandit model selection in stochastic environments. Our approach relies on a meta-algorithm that selects between candidate base algorithms. We develop a meta-algorithm-base algorithm abstraction that can work with general classes of base algorithms and different type of adversarial meta-algorithms. Our methods rely on a novel and generic smoothing transformation for bandit algorithms that permits us to obtain optimal $O(\sqrt{T})$ model selection guarantees for stochastic contextual bandit problems as long as the optimal base algorithm satisfies a high probability regret guarantee. We show through a lower bound that even when one of the base algorithms has $O(\log T)$ regret, in general it is impossible to get better than $Ω(\sqrt{T})$ regret in model selection, even asymptotically. Using our techniques, we address model selection in a variety of problems such as misspecified linear contextual bandits, linear bandit with unknown dimension and reinforcement learning with unknown feature maps. Our algorithm requires the knowledge of the optimal base regret to adjust the meta-algorithm learning rate. We show that without such prior knowledge any meta-algorithm can suffer a regret larger than the optimal base regret.

연구 동기 및 목표

  • 기각된 후보 알고리즘 중 최적의 알고리즘이 사전에 알려져 있지 않은 상황에서, 스토하스틱 문맥 밴딧에서의 모델 선택 문제를 해결하기 위해.
  • 높은 확률로 복귀 보장을 갖는 기저 알고리즘들 사이에서 적응적으로 선택할 수 있는 메타알고리즘을 개발하기 위해. 이는 최적 기저 알고리즘의 복귀에 대한 사전 지식이 필요로 하지 않는다.
  • 모델 선택 성능에 대한 이론적 한계를 규명하여, $\Omega(\sqrt{T})$ 복귀가 최적 기저 알고리즘이 $O(\log T)$ 복귀를 가질 경우에도 피할 수 없다는 것을 보여주기 위해.
  • 오차가 있는 선형 밴딧, 차원이 알려지지 않은 선형 밴딧, 알려지지 않은 특징 매핑을 가진 강화학습과 같은 문제들로 프레임워크를 확장하기 위해.
  • 재증명이나 안정성 가정 없이도 기저 알고리즘의 복귀 한계를 유지할 수 있는 블랙박스 호환 방법을 제공하기 위해.

제안 방법

  • 밴딧 알고리즘에 일반화된 스무딩 변환을 도입하여 성능을 안정화하고, 이를 악성 메타알고리즘에서 사용할 수 있도록 한다.
  • 기저 알고리즘들을 암으로 간주하고 이들의 이력 성능에 기반해 선택하는 CORRAL 스타일의 메타알고리즘을 활용한다.
  • 메타알고리즘에서 학습률 스케줄을 설계하여 알려진 최적 기저 복귀에 의존함으로써 $O(\sqrt{T})$ 복귀를 달성한다.
  • 오차가 있는 선형 밴딧, 차원이 알려지지 않은 선형 밴딧, 알려지지 않은 특징 매핑을 가진 강화학습 등 다양한 문제에 이 프레임워크를 적용한다.
  • 각 기저 알고리즘 $\mathcal{B}_i$가 가상의 복귀 한계 $U_i(t,\delta)$와 연결된 높은 확률 복귀 보장 프레임워크를 사용한다.
  • 기본 복귀에 대한 사전 지식이 없을 경우, 어떤 메타알고리즘도 최적 기저 알고리즘보다 열악한 복귀를 겪을 수 있음을 입증한다.

실험 결과

연구 질문

  • RQ1최적 기저 알고리즘이 $O(\log T)$ 복귀를 가질 경우, 메타알고리즘이 문맥 밴딧의 모델 선택에서 $O(\sqrt{T})$ 복귀를 달성할 수 있는가?
  • RQ2안정성 또는 복귀 한계 재증명이 필요 없이도 임의의 기저 알고리즘과 함께 작동하는 블랙박스 메타알고리즘을 설계할 수 있는가?
  • RQ3스토하스틱 문맥 밴딧에서 모델 선택 복귀의 기본 한계는 무엇인가? 이는 최적 기저 알고리즘이 완벽하게 적응된 경우에도 적용된다.
  • RQ4제안된 프레임워크는 알려지지 않은 차원 또는 알려지지 않은 링크 함수와 같은 모델 파라미터가 알려지지 않은 문제를 다룰 수 있는가?
  • RQ5스무딩 변환은 비안정적인 기저 알고리즘들을 CORRAL과 같은 악성 메타알고리즘에서 사용할 수 있도록 어떻게 가능하게 하는가?

주요 결과

  • 제안된 메타알고리즘은 기저 알고리즘이 $O(\log T)$ 복귀를 가질 경우에도 문맥 밴딧의 모델 선택에서 $O(\sqrt{T})$ 복귀를 달성하며, 이는 최적의 속도를 그대로 유지한다.
  • 하한선을 통해 $\Omega(\sqrt{T})$ 복귀가 모델 선택에서 피할 수 없다는 것을 입증하였으며, 이는 최적 기저 알고리즘이 $O(\log T)$ 복귀를 가질 경우에도 점점 더 명백해진다.
  • 스무딩 변환은 UCB나 OFUL과 같은 표준 스토하스틱 밴딧 알고리즘을 악성 메타알고리즘에서 안정성 조건 없이 사용할 수 있도록 한다.
  • 오차가 있는 선형 밴딧의 경우, $M$개의 스무딩된 LSVI-UCB 변종 중에서 선택할 때 $\widetilde{\mathcal{O}}(\sqrt{Md^3H^3T})$ 복귀를 달성한다.
  • 알 수 없는 링크 함수를 가진 일반화된 선형 밴딧의 경우, 각 링크 함수를 기저 알고리즘으로 간주함으로써 $\widetilde{\mathcal{O}}(\sqrt{|\mathbb{L}|dT})$ 복귀를 달성한다.
  • 알 수 없는 $\epsilon_*$를 가진 헤비테일 밴딧의 경우, $\epsilon_*$ 값의 격자와 $\eta = T^{-1/2}$를 사용하여 $\widetilde{\mathcal{O}}(T^{1-0.5b\epsilon_*})$ 복귀를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.