QUICK REVIEW

[논문 리뷰] Thompson sampling with the online bootstrap

Dean Eckles, Maurits Kaptein|arXiv (Cornell University)|2014. 10. 15.

Advanced Bandit Algorithms Research참고 문헌 27인용 수 28

한 줄 요약

이 논문은 이중-또는-없애기 부트스트랩(예: 더블-오-노우티ongs 부트스트랩 포함)을 사용한 온라인 재가중 기법으로 사후분포를 부트스트랩 분포로 대체하는 계산적으로 효율적인 톰슨 샘플링의 대안인 부트스트랩 톰슨 샘플링(BTS)을 소개한다. BTS는 베르누이 및 가우시안 밴딧에서 경쟁 가능한 성능을 달성하며, 더 높은 확장성과 모형 오특정에 대한 강건성을 보이며, 특히 이방편분산 오차 구조에서 두각을 나타낸다.

ABSTRACT

Thompson sampling provides a solution to bandit problems in which new observations are allocated to arms with the posterior probability that an arm is optimal. While sometimes easy to implement and asymptotically optimal, Thompson sampling can be computationally demanding in large scale bandit problems, and its performance is dependent on the model fit to the observed data. We introduce bootstrap Thompson sampling (BTS), a heuristic method for solving bandit problems which modifies Thompson sampling by replacing the posterior distribution used in Thompson sampling by a bootstrap distribution. We first explain BTS and show that the performance of BTS is competitive to Thompson sampling in the well-studied Bernoulli bandit case. Subsequently, we detail why BTS using the online bootstrap is more scalable than regular Thompson sampling, and we show through simulation that BTS is more robust to a misspecified error distribution. BTS is an appealing modification of Thompson sampling, especially when samples from the posterior are otherwise not available or are costly.

연구 동기 및 목표

MCMC를 통한 사후 샘플링이 비용이 많이 들기 때문에 대규모 밴딧 문제에서 톰슨 샘플링의 계산 비가용성 문제를 해결한다.
특히 i.i.d. 또는 이방편분산 오차 구조에서 모형 오특정에 대한 톰슨 샘플링의 강건성을 향상시킨다.
사후분포의 전체 계산을 피하기 위해 부트스트랩 샘플링을 사용하는 확장성 있고 온라인 가능한 톰슨 샘플링의 대안을 개발한다.
전체 데이터 재처리가 비현실적인 스트리밍 또는 고용량 데이터 환경에서 병렬 처리와 실시간 업데이트를 가능하게 한다.
BTS가 파rametric 가정에 대한 의존도를 줄이고 복잡한 사후 샘플링을 줄이며 강력한 성능를 유지함을 입증한다.

제안 방법

톰슨 샘플링의 베이지안 사후분포 P(θ|D)를 재가중 기법을 사용한 점추정치 θ̂의 부트스트랩 분포로 대체한다.
각 관측치에 대해 0 또는 2(또는 0 또는 1)의 가중치를 동일한 확률로 할당하는 더블-오-노우티ongs 부트스트랩(DoNB)을 사용한다. 이는 온라인 업데이트를 가능하게 한다.
각 부트스트랩 복제본 j에 대해 현재 데이터와 가중치를 사용해 가중치가 부여된 추정치 θ̂j를 계산하고, 이러한 θ̂j의 경험적 분포에서 행동을 선택하기 위해 샘플링한다.
온라인으로 방법을 구현한다: 새로운 관측치가 도착하면 각 부트스트랩 복제본을 1/2의 확률로 업데이트하여 전체 재계산을 피한다.
각 액션의 최적일 확률을 부트스트랩 분포에 의해 결정하며, 이는 톰슨 샘플링의 탐색-이용 균형과 유사하다.
다양한 머신이나 코어에 부트스트랩 복제본을 분산 배포하여 병렬 처리를 활용함으로써 실시간 대용량 시스템에 적합한 고처리량 배포를 가능하게 한다.

실험 결과

연구 질문

RQ1부트스트랩 기반 샘플링이 톰슨 샘플링의 사후분포를 충분히 잘 근사하여 밴딧 문제에서 경쟁 가능한 성능을 유지할 수 있는가?
RQ2특히 이방편분산 오차에서 모형 오특정 상황에서 BTS는 톰슨 샘플링에 비해 누적 누적손실 측면에서 어떻게 성능을 내는가?
RQ3BTS는 대규모 데이터셋에서 얼마나 확장 가능한가? 그리고 스트리밍 방식으로 효율적으로 업데이트될 수 있는가?
RQ4부트스트랩 복제본 수 J가 BTS의 탐색-이용 균형과 전체 성능에 미치는 영향은 어느 정도인가?
RQ5성능나 일致성을 손상시키지 않고 분산 또는 병렬화된 방식으로 BTS를 구현할 수 있는가?

주요 결과

충분한 부트스트랩 복제본 수(J=1000)가 있을 경우, 잘 지정된 베르누이 밴딧 설정에서 BTS는 톰슨 샘플링과 유사한 누적 손실을 달성한다.
이방편분산 오차 분포 하에서 BTS는 톰슨 샘플링을 크게 능가하며, 이방편분산 정도(γ)가 증가할수록 손실 격차가 커진다.
BTS의 성능는 부트스트랩 복제본 수에 민감하다: 너무 적은 복제본 수는 과도한 이용과 더 높은 손실로 이어진다.
각 부트스트랩 복제본이 독립적이고 온라인으로 업데이트될 수 있기 때문에 BTS는 계산적으로 확장 가능하다.
병렬 처리가 용이하여 온라인 광고나 A/B 테스트 플랫폼과 같은 대규모 실시간 응용 분야에 적합하다.
특히 가정된 우도(예: 가우시안)가 진짜 데이터 생성 과정과 일치하지 않을 때, BTS는 모형 오특정에 대해 강건함을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.