QUICK REVIEW

[논문 리뷰] Provably Optimal Algorithms for Generalized Linear Contextual Bandits

Lihong Li, Yun Gang Lu|arXiv (Cornell University)|2017. 02. 28.

Advanced Bandit Algorithms Research인용 수 141

한 줄 요약

이 논문은 GLM 기반의 UCB 알고리즘을 일반화 선형 보상과 함께 사용하는 상황 bandit에 도입하여 거의 최적의 후회와 날카로운 유한 표본 MLE 신뢰 구간을 제공합니다.

ABSTRACT

Contextual bandits are widely used in Internet services from news recommendation to advertising, and to Web search. Generalized linear models (logistical regression in particular) have demonstrated stronger performance than linear models in many applications where rewards are binary. However, most theoretical analyses on contextual bandits so far are on linear bandits. In this work, we propose an upper confidence bound based algorithm for generalized linear contextual bandits, which achieves an $ ilde{O}(\sqrt{dT})$ regret over $T$ rounds with $d$ dimensional feature vectors. This regret matches the minimax lower bound, up to logarithmic terms, and improves on the best previous result by a $\sqrt{d}$ factor, assuming the number of arms is fixed. A key component in our analysis is to establish a new, sharp finite-sample confidence bound for maximum-likelihood estimates in generalized linear models, which may be of independent interest. We also analyze a simpler upper confidence bound algorithm, which is useful in practice, and prove it to have optimal regret for certain cases.

연구 동기 및 목표

일반화 선형 모델을 넘어서는 일반화 선형 보상으로 컨텍스추얼 밴딧을 동기 부여한다.
GLM 맥락에서 강한 후회 보장을 가진 입증 가능한 알고리즘을 개발한다.
GLM 최대 우도 추정치에 대한 새로운 유한 표본 신뢰 구간을 제공한다.
실용적으로 유용한 UCB 기반 알고리즘과 최적성 중심 변형을 제시한다.

제안 방법

GLM 컨텍스추얼 밴딧에 대해 ~O(sqrt(d T)) 후회를 달성하는 SupCB-GLM이라는 상한 신뢰 구간 알고리즘을 제안한다.
GLM MLE에 대한 날카로운 유한 표본의 방향성 신뢰 구간(비점대칭 정상성 유형 결과)을 도출한다.
합리적인 조건하에서 최적의 후회를 달성하는 더 단순한 UCB-GLM 알고리즘을 분석한다.
분리 샘플 독립 생성(SupCB-GLM)을 도입하여 더 촘촘한 분석이 가능하도록 하는 인스턴스로 만든다(≥ Auer 2002에서 영감을 받음).
자기 정규화 마르코프 및 새로운 신뢰 구간을 활용한 증명을 제공하여 후회를 상한한다.
투사 단계 없이 더 효율적인 변형을 포함한 계산적·실용적 고려사항을 논의한다.

실험 결과

연구 질문

RQ1고정 팔(arms) 규칙에서 로그 요인을 제외하고 최소 맵 대역근에 상응하는 한계까지 일반화 선형 컨텍스추얼 밴딧에 대해 상한 신뢰 구간 알고리즘을 설계할 수 있는가?
RQ2GLM 최대우도 추정치에 대해 유한 표본의 방향성 신뢰 구간을 확립하여 촘촘한 후회 분석을 지원할 수 있는가?
RQ3GLM 기반 UCB 알고리즘은 특히 고차원 설정에서 후회 측면에서 기존의 GLM 밴드잇 접근법과 비교했을 때 어떤 차이가 있는가?
RQ4가중된 계산 없이도 근사적으로 최적의 후회를 달성하는 더 간단한 UCB 변형이 가능한가?
RQ5독립 샘플 기반 방법(SupCB-GLM)을 구성하여 작은 액션 집합에서 거의 최적의 후회를 달성할 수 있는가?

주요 결과

GLM UCB 알고리즘 SupCB-GLM은 ~O(d sqrt(T))의 후회를 로그 요인을 포함한 로그에 의해 시장에서의 무한 액션에 대해 minimax 하한과 일치시키며(GLM 결과를 개선함).
GLM MLE에 대해 모든 방향에서 성립하는 날카로운 유한 표본 신뢰 구간이 입증되어 방향별 후회 분석이 가능하다.
더 간단한 UCB-GLM 알고리즘이 합리적 가정 하에서 최적의 후회를 달성하는 것으로 보였으며, 프로젝션 기반 방법보다 실용적이다.
SupCB-GLM은 유한 액션 세트에 대해 ~O(sqrt(d T log K))의 거의 최적의 후회를 달성하며, 전체 한계는 로그에 의해 촘촘히 나타난다.
해당 분석은 GLM 밴딧에서 전통적인 엘립토스(ellipsoid, l2) 구분보다 방향성 신뢰 구간의 우위성을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.