QUICK REVIEW

[논문 리뷰] Adapting to Misspecification in Contextual Bandits

Dylan J. Foster, Claudio Gentile|arXiv (Cornell University)|2021. 07. 12.

Advanced Bandit Algorithms Research인용 수 21

한 줄 요약

이 논문은 유한 및 무한 행동 설정에서 알려지지 않은 모델 부정확성에 적응하는 오라클 효율적인 알고리즘의 새로운 가족을 소개한다. SquareCB를 로그-바리에어 정규화 최적화 관점에서 재해석함으로써, 알려지지 않은 부정확성 수준 $\varepsilon$를 가진 선형 컨텍스츄얼 밴디트에 대해 최적의 리그레트 한계 $\tilde{\mathcal{O}}(d\sqrt{T} + \varepsilon\sqrt{d}T)$ 를 달성하며, $\varepsilon$에 대한 사전 지식 없이도 작동하며, 온라인 회귀 오라클을 통해 적대적으로 선택된 컨텍스트를 지원한다.

ABSTRACT

A major research direction in contextual bandits is to develop algorithms that are computationally efficient, yet support flexible, general-purpose function approximation. Algorithms based on modeling rewards have shown strong empirical performance, but typically require a well-specified model, and can fail when this assumption does not hold. Can we design algorithms that are efficient and flexible, yet degrade gracefully in the face of model misspecification? We introduce a new family of oracle-efficient algorithms for $\varepsilon$-misspecified contextual bandits that adapt to unknown model misspecification -- both for finite and infinite action settings. Given access to an online oracle for square loss regression, our algorithm attains optimal regret and -- in particular -- optimal dependence on the misspecification level, with no prior knowledge. Specializing to linear contextual bandits with infinite actions in $d$ dimensions, we obtain the first algorithm that achieves the optimal $O(d\sqrt{T} + \varepsilon\sqrt{d}T)$ regret bound for unknown misspecification level $\varepsilon$. On a conceptual level, our results are enabled by a new optimization-based perspective on the regression oracle reduction framework of Foster and Rakhlin, which we anticipate will find broader use.

연구 동기 및 목표

모델 부정확성 하에서도 효과적인 계산 효율적인 컨텍스츄얼 밴디트 알고리즘을 개발하는 것.
SquareCB 감소 프레임워크를 최적성과 적응성을 유지하면서 무한 행동 집합으로 확장하는 것.
선형 컨텍스츄얼 밴디트에서 알려지지 않은 부정확성 수준에 적응하는 열린 문제를 해결하는 것.
부정확성 수준에 대한 사전 지식 없이도 부정확성 하에서 부드럽게 기능하는 일반 목적의 탄력적인 접근법을 제공하는 것.

제안 방법

SquareCB의 행동 선택을 로그-바리에어 정규화 최적화 문제의 근사로 재해석함으로써, 무한 행동 공간으로의 확장을 가능하게 한다.
계산 효율성과 적응성을 유지하기 위해 제곱 손실을 위한 온라인 회귀 오라클을 사용한다.
CORRAL과 유사한 밴디트 모델 선택 절차와 알고리즘을 결합하여 알려지지 않은 부정확성 수준에 적응한다.
분포의 지지 집합과 최적성 갭 제어를 유지하기 위해 라운딩 기반 반복적 기법을 활용하며, 복잡도는 $\mathcal{O}(d^4|\mathcal{A}|)$ 연산으로 제한된다.
회귀 오라클 감소 프레임워크에 대한 새로운 최적화 기반 시각을 도입하여, 실현 가능성 이외의 범위로의 일반화를 가능하게 한다.
온라인 오라클에 의존함으로써 적대적으로 선택된 컨텍스트를 지원하며, 오프라인 오라클보다 강력하여 더 효율적인 업데이트를 허용한다.

실험 결과

연구 질문

RQ1알려지지 않은 모델 부정확성에 적응하면서도 최적의 리그레트와 계산 효율성을 유지할 수 있는 컨텍스츄얼 밴디트 알고리즘을 설계할 수 있는가?
RQ2최적성이나 적응성을 희생시키지 않고 SquareCB 감소를 무한 행동 집합으로 확장할 수 있는가?
RQ3부정확성 수준 $\varepsilon$에 대한 사전 지식 없이도 최적의 리그레트 의존성을 달성할 수 있는가?
RQ4CORRAL 스타일의 집계 프레임워크를 개선된 로그 인자와 함께 무한 행동 설정으로 일반화할 수 있는가?

주요 결과

제안된 알고리즘은 무한한 행동과 알려지지 않은 부정확성 수준 $\varepsilon$를 가진 선형 컨텍스츄얼 밴디트에 대해 최적의 리그레트 한계 $\tilde{\mathcal{O}}(d\sqrt{T} + \varepsilon\sqrt{d}T)$ 를 달성한다.
알고리즘은 오라클 효율적이며, 제곱 손실 회귀를 위한 오직 온라인 오라클에만 접근이 가능하며, 부정확성 수준 $\varepsilon$에 대한 최적의 의존성을 유지한다.
행동 선택을 로그-바리에어 정규화 최적화 문제로 재정의함으로써, SquareCB 프레임워크를 무한 행동 집합으로 일반화한다.
알려지지 않은 $\varepsilon$에 대해 사전 지식 없이도 알고리즘이 부정확성 하에서 부드럽게 기능하며, Lattimore 등(2020)이 제기한 열린 문제를 해결한다.
CORRAL 알고리즘의 새로운 변형이 개발되었으며, 더 단순하고 탄력적이며 리그레트 한계에서 개선된 로그 인자들을 갖는다.
총 계산 복잡도는 $\tilde{\mathcal{O}}(d^4|\mathcal{A}|)$ 연산으로 제한되며, 희소 지지 집합 표현 방식을 통해 메모리 효율성이 보장된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.