QUICK REVIEW

[논문 리뷰] Neural Thompson Sampling

Weitong Zhang, Dongruo Zhou|arXiv (Cornell University)|2020. 10. 02.

Advanced Bandit Algorithms Research참고 문헌 50인용 수 26

한 줄 요약

이 논문은 심층 신경망을 사용하는 새로운 사후 분포를 갖춘 신경 톰슨 샘플링(NeuralTS)을 제안한다. 여기서 평균은 신경망 출력이고 분산은 신경직각특성(Neural Tangent Features)에서 유도된다. 이 방법은 누적 손실(regret)이 $\mathcal{O}(T^{1/2})$로, 문맥 밴디트(contextual bandits)의 최적 경계와 일치하며, 벤치마크 데이터셋에서 강력한 성능을 보이며 실험적으로 검증되었다.

ABSTRACT

Thompson Sampling (TS) is one of the most effective algorithms for solving contextual multi-armed bandit problems. In this paper, we propose a new algorithm, called Neural Thompson Sampling, which adapts deep neural networks for both exploration and exploitation. At the core of our algorithm is a novel posterior distribution of the reward, where its mean is the neural network approximator, and its variance is built upon the neural tangent features of the corresponding neural network. We prove that, provided the underlying reward function is bounded, the proposed algorithm is guaranteed to achieve a cumulative regret of $\mathcal{O}(T^{1/2})$, which matches the regret of other contextual bandit algorithms in terms of total round number $T$. Experimental comparisons with other benchmark bandit algorithms on various data sets corroborate our theory.

연구 동기 및 목표

문맥 밴디트에서 탐색과 이용을 효과적으로 통합하는 데 심층 신경망을 활용하는 톰슨 샘플링 알고리즘을 개발하는 것.
이전에 간단한 모델에 국한되었던 신경망 기반 톰슨 샘플링에 대해 이론적 손실 보장을 제공하는 것.
평균이 신경망 예측이고 분산이 신경직각특성에 기반한 사후 분포를 설계하여 체계적인 불확실성 측정을 가능하게 하는 것.
실세계 벤치마크 데이터셋에서 최신 기준 알고리즘과의 비교를 통해 알고리즘의 성능을 실험적으로 검증하는 것.

제안 방법

알고리즘은 입력 특징 $ \mathbf{x} $에 대해 ReLU 활성화 함수를 갖는 완전히 연결된 피드포워드 신경망 $ f(\mathbf{x}; \bm{\theta}) $ 를 사용하며, 보상 예측을 위해 스케일링된 출력을 사용한다.
새로운 사후 분포는 평균 $ f(\mathbf{x}; \bm{\theta}) $ 와 분산 $ \sigma_{t,k}^2 = \lambda \mathbf{g}^\top(\mathbf{x}_{t,k}; \bm{\theta}_{t-1}) \mathbf{U}_{t-1}^{-1} \mathbf{g}(\mathbf{x}_{t,k}; \bm{\theta}_{t-1}) / m $ 로 구성되며, 여기서 $ \mathbf{g} $ 는 신경직각특성 벡터이다.
보상 추정의 불확실성은 경험적 페셔 정보 행렬 $ \mathbf{U}_{t-1} $ 의 역행렬을 통해 유도되며, 이는 신경직각핵(NTK)을 통해 근사된다.
톰슨 샘플링은 이 사후 분포에서 샘플을 추출하여 다음 암을 선택하는 방식으로 적용되며, 탐색과 이용을 균형 있게 조절한다.
손실 분석은 효과적 차원 $ \widetilde{d} $ 를 활용하며, 이는 $ \widetilde{d} = \log \det(\mathbf{I} + \mathbf{H}/\lambda) / \log(1 + TK) $ 로 정의되며, 여기서 $ \mathbf{H} $ 는 NTK 그램 행렬이다.
집중 부등식과 행렬 분석을 통해 신경직각특성 노름과 사후 분산에 대한 고확률 경계를 도출한다.

실험 결과

연구 질문

RQ1신경망 기반 톰슨 샘플링 알고리즘이 문맥 밴디트에서 근사 최적의 손실 경계를 달성할 수 있는가?
RQ2딥 뉴럴 네트워크 예측의 불확실성을 밴디트 설정에서 효과적인 탐색을 위해 적절히 측정할 수 있는가?
RQ3신경직각특성을 분산 추정에 사용하는 톰슨 샘플링 알고리즘의 이론적 손실 성능는 어떠한가?
RQ4제안된 방법은 기존의 신경 밴디트 알고리즘과 비교해 손실과 누적 보상 측면에서 어떻게 성능를 보이는가?

주요 결과

제안된 신경 톰슨 샘플링 알고리즘은 누적 손실이 $ \mathcal{O}(T^{1/2}) $ 로, 문맥 밴디트의 최적 속도와 일치한다.
손실 경계는 $ \widetilde{\mathcal{O}}(\widetilde{d} \sqrt{T}) $ 로 표현되며, 여기서 $ \widetilde{d} $ 는 효과적 차원이며, 선형 경우에 이 경계는 날카롭게 유지된다.
기존 방법이 마지막 레이어만 고려하는 데 반해, 이 알고리즘은 신경직각핵을 통해 모든 네트워크 레이어에 걸쳐 불확실성을 체계적으로 통합한다.
다양한 벤치마크 데이터셋에서의 실험 평가 결과, NeuralTS는 최신 기준 알고리즘과 경쟁 가능한 성능을 보이며 실용적 유용성을 확인하였다.
이론적 분석 결과, 사후 분산이 고확률로 유계임을 입증하여 안정적인 탐색을 보장한다.
만약 문맥이 NTK에 의해 유도된 RKHS의 저차원 비선형 부분공간에 존재할 경우, 효과적 차원 $ \widetilde{d} $ 는 $ d' + 1 $ 으로 유계이며, 여기서 $ d' $ 은 부분공간의 내재적 차원이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.