QUICK REVIEW

[논문 리뷰] Beyond UCB: Optimal and Efficient Contextual Bandits with Regression Oracles

Dylan J. Foster, Alexander Rakhlin|arXiv (Cornell University)|2020. 02. 12.

Advanced Bandit Algorithms Research인용 수 52

한 줄 요약

본 논문은 회귀 오라클을 이용한 맥락 밴딧에서 온라인 회귀로의 보편적이고 최적화된 환원인 SquareCB를 제시하며, realizability를 벗어나지 않는 분포 가정 없이 realizability 하에서 미니맥스 최적의 후회를 달성한다.

ABSTRACT

A fundamental challenge in contextual bandits is to develop flexible, general-purpose algorithms with computational requirements no worse than classical supervised learning tasks such as classification and regression. Algorithms based on regression have shown promising empirical success, but theoretical guarantees have remained elusive except in special cases. We provide the first universal and optimal reduction from contextual bandits to online regression. We show how to transform any oracle for online regression with a given value function class into an algorithm for contextual bandits with the induced policy class, with no overhead in runtime or memory requirements. We characterize the minimax rates for contextual bandits with general, potentially nonparametric function classes, and show that our algorithm is minimax optimal whenever the oracle obtains the optimal rate for regression. Compared to previous results, our algorithm requires no distributional assumptions beyond realizability, and works even when contexts are chosen adversarially.

연구 동기 및 목표

유연하고 일반 목적의 맥락 밴딧 알고리즘을 실용적인 실행 시간 및 메모리 비용으로 지도하는 것.
맥락 밴딧을 회귀 오라클을 통해 온라인 회귀로 환원하여 강력한 후회 보장을 얻는 것.
풍부한 함수 클래스에 대한 맥스-최소(Minx) 속도를 특성화하고 SquareCB 환원의 최적성을 확립하는 것.
실현 가능성과 적대적 맥락 하에서 구체적인 함수 클래스(선형, 커널, GLM)에 대한 end-to-end 보장을 제공하는 것.

제안 방법

온라인 회귀 오라클(SqAlg)과 제곱 손실 후회 보장을 도입하는 것의 개념을 제시한다.
회귀 오라클을 사용해 점수 차이의 역수에 비례하는 확률로 행동을 선택하는 환원인 SquareCB를 제시한다.
Reg_CB(T) ≤ C * sqrt(K T * Reg_Sq(T))를 높은 확률로 증명하고, 오라클의 메모리/실행 시간 한계를 물려받는다.
적절한 SqAlg 및 함수 클래스 선택에 대해 SquareCB가 맥스-최적임을 보인다.
다양한 함수 클래스(선형, 고차원 선형, 커널, GLM)에 대해 SquareCB를 구체적으로 구현하여 구체적인 후회 보장을 이끌어낸다.
모델 오차에 대한 강건성 및 큰 행동 공간으로의 확장에 대해 논의한다.

실험 결과

연구 질문

RQ1실현 가능성 하에서 풍부한(잠재적으로 비모수적) 함수 클래스를 갖는 맥락 밴딧의 미니맥스 후회 속도는 무엇인가?
RQ2 Gap가 존재할 때 RichCB에서 거의 로그에 비례하는 후회를 광범위한 함수 클래스와 큰 행동 집합에서 달성할 수 있는가?
RQ3실현 가능성 외에 다른 분포 가정 없이도 맥락 밴딧을 온라인 회귀로 환원하고 여전히 효율적인 계산을 유지할 수 있는가?
RQ4실현 가능성 하에서 실용적 함수 클래스(선형, 커널, GLM)에서 SquareCB의 후회와 계산 효율성은 어떻게 되는가?

주요 결과

SquareCB는 온라인 회귀 후회를 맥 context 밴딧 후회로 변환하여 Reg_CB(T) = O( sqrt(K T Reg_Sq(T)) )를 달성하며, 오라클의 런타임 및 메모리를 물려받는다.
SquareCB는 보편적이다: 어떤 함수 클래스에 대해서도 미니맥스 속도를 달성하는 SqAlg가 존재하며, 상수와 K 차원 의존성을 제외하면 하한과 일치한다.
유한 F에 대해 SqAlg가 Reg_Sq(T) = O(log|F|)인 경우 SquareCB는 Reg_CB(T) ≤ O( sqrt(K T log|F|) )를 얻는다.
구체적 구현에서 선형, 고차원 선형, 커널, 그리고 실현 가능성 하의 일반화 선형 모델에서의 후회가 우수하며, 각 라운드 비용이 확장 가능하다.
프레임워크는 모델 오테오가 잘못된 경우에도 강건하며, 실현 가능성이 근사일 때도 완화된 성능으로 감소한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.