QUICK REVIEW

[논문 리뷰] Bootstrapped Thompson Sampling and Deep Exploration

Ian Osband, Benjamin Van Roy|arXiv (Cornell University)|2015. 07. 01.

Advanced Bandit Algorithms Research참고 문헌 11인용 수 60

한 줄 요약

이 논문은 강화학습에서 효과적인 탐색을 가능하게 하기 위해 명시적 사후 분포 샘플링을 부트스트랩 기반의 인공 데이터 접근 방식으로 대체하는 Bootstrapped Thompson Sampling을 소개한다. 사후 분포를 유지하지 않으면서도 톰슨 샘플링과 유사한 행동을 달성함으로써, 비선형 모델(예: 딥 뉴럴 네트워크)에서도 스케일러블하고 깊은 탐색이 가능해진다.

ABSTRACT

This technical note presents a new approach to carrying out the kind of exploration achieved by Thompson sampling, but without explicitly maintaining or sampling from posterior distributions. The approach is based on a bootstrap technique that uses a combination of observed and artificially generated data. The latter serves to induce a prior distribution which, as we will demonstrate, is critical to effective exploration. We explain how the approach can be applied to multi-armed bandit and reinforcement learning problems and how it relates to Thompson sampling. The approach is particularly well-suited for contexts in which exploration is coupled with deep learning, since in these settings, maintaining or generating samples from a posterior distribution becomes computationally infeasible.

연구 동기 및 목표

딥 뉴럴 네트워크 등 복잡한 모델에서 사후 분포를 유지하고 샘플링하는 데 있어 계산적으로 비현실적인 문제를 해결한다.
명시적 베이지안 추론이 필요 없이도 톰슨 샘플링의 탐색 성질을 유지할 수 있는 실용적인 대안을 개발한다.
즉각적인 보상이 아닌 향후 정보 수집을 위해 탐색하는 '깊은 탐색'을 부트스트랩 기반의 인공 데이터 생성을 통해 가능하게 한다.
딥 뉴럴 네트워크와 같은 대규모 비선형 매개변수 모델에 적합한 확장 가능하고 병렬 처리 가능한 프레임워크를 제공한다.
톰슨 샘플링의 이론적 최적성과 복잡한 딥러닝 기반 순차적 결정 시스템에서의 실용적 구현 간 격차를 메운다.

제안 방법

관측된 역사적 데이터와 인공적으로 생성된 데이터를 조합하여 모델 훈련을 위한 하이브리드 데이터셋을 구성한다.
결합된 데이터셋의 경험적 분포에서 부트스트랩 기법을 사용해 무작위화된 모델을 생성한다.
각 에피소드에서 부트스트랩된 데이터셋에 대해 훈련된 K개의 모델 중에서 무작위로 한 모델(예: 딥 뉴럴 네트워크)을 샘플링한다.
샘플된 모델에 대해 탐색과 이용의 균형을 이루는 그리디 정책을 사용한다.
탐색을 장려하기 위해 확률적으로 낙관적인 보상과 무작위 전이를 갖는 인공 데이터를 통합한다.
병렬 계산을 통해 증분적 모델 업데이트를 가능하게 하여 전체 재학습 없이도 효율적인 온라인 학습을 지원한다.

실험 결과

연구 질문

RQ1부트스트랩 기반 방법이 명시적인 사후 분포 유지 없이도 톰슨 샘플링의 탐색 행동을 재현할 수 있는가?
RQ2다양한 손실 함수나 강화학습 문제에서 충분하고 효과적인 탐색을 보장하기 위해 어떻게 인공 데이터를 구성할 수 있는가?
RQ3사후 샘플링이 계산적으로 비현실적인 깊이 있는 신경망 모델에 이 방법이 스케일링 가능한가?
RQ4표준 부트스트랩 또는 서브샘플링 방법보다 인공 데이터의 포함이 탐색 효과성에 개선을 가져오는가?
RQ5비선형 함수 근사기에서 '깊은 탐색'(즉각적인 보상이 없지만 향후 학습에 유용한 행동 선택)을 지원할 수 있는가?

주요 결과

제안된 방법은 명시적 사후 계산이나 샘플링 없이도 톰슨 샘플링과 유사한 탐색 행동을 달성한다.
확률적으로 낙관적인 보상과 무작위 전이를 갖는 인공 데이터는 특히 딥러닝 환경에서 효과적인 탐색을 이끌어내는 데 핵심적이다.
이 알고리즘은 즉각적인 보상이 없더라도 향후 단계에서 더 효과적으로 학습할 수 있도록 도와주는 행동 선택을 가능하게 하여 깊은 탐색을 지원한다.
이 방법은 확장 가능하고 병렬 처리가 가능하므로 딥 뉴럴 네트워크를 사용한 대규모 강화학습에 적합하다.
병렬 부트스트랩 샘플링을 통한 증분적 모델 업데이트로 인해 각 에피소드 후 전체 재학습 없이도 효율적인 온라인 학습이 가능하다.
특히 비선형적이고 고차원적인 환경에서 표준 부트스트랩 및 서브샘플링 방법보다 탐색 효과성이 뛰어나다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.