QUICK REVIEW

[논문 리뷰] Thompson Sampling and Approximate Inference

My V. T. Phan, Yasin Abbasi Yadkori|arXiv (Cornell University)|2019. 01. 01.

Advanced Bandit Algorithms Research인용 수 15

한 줄 요약

이 논문은 $k$-armed 밴딧 문제에서 근사적 추론이 톰슨 샘플링에 미치는 영향을 조사하며, $\alpha > 0$일 경우 $\alpha$-divergence에서조차 작은 오차가 지속적인 부족 탐색으로 이어져 선형적 손실을 초래할 수 있음을 보여준다. $\alpha \leq 0$인 경우, 최소한의 강제 탐색을 추가하면 심지어 큰 추론 오차가 있을 때도 성능 저하가 완화된다.

ABSTRACT

We study the effects of approximate inference on the performance of Thompson sampling in the $k$-armed bandit problems. Thompson sampling is a successful algorithm for online decision-making but requires posterior inference, which often must be approximated in practice. We show that even small constant inference error (in $\alpha$-divergence) can lead to poor performance (linear regret) due to under-exploration (for $\alpha 0$) by the approximation. While for $\alpha > 0$ this is unavoidable, for $\alpha \leq 0$ the regret can be improved by adding a small amount of forced exploration even when the inference error is a large constant.

연구 동기 및 목표

근사 사후 분포를 사용한 톰슨 샘플링의 성능에 대한 근사적 사후 추론의 영향을 분석하는 것.
특히 선형 손실을 초래하는 조건에서 추론 오차가 성능 저하를 유발하는 조건을 규명하는 것.
근사적 추론이 정확하지 않을 경우 강제 탐색이 손실에 어떤 영향을 미치는지 탐색하는 것.
$\alpha$-divergence가 추론 오차를 정량화하고 탐색에 미치는 영향을 규명하는 데서의 역할을 특성화하는 것.

제안 방법

논문은 $\alpha$-divergence를 사용해 추론 오차를 측정하는 방식으로 근사 사후 분포를 사용한 톰슨 샘플링을 모델링한다.
다양한 $\alpha$ 값에서의 손실 행동을 분석하며, $\alpha > 0$과 $\alpha \leq 0$을 구분한다.
$\alpha \leq 0$인 경우, 근사 오차로 인한 탐색 부족 현상을 보완하기 위해 소량의 강제 탐색을 도입한다.
이론적 분석을 통해 일정한 추론 오차가 존재하더라도 손실이 비선형적으로 유지되는 조건을 유도한다.
정보이론적 도구를 활용해 $\alpha$-divergence와 탐색 효율성 간의 관계를 규명한다.

실험 결과

연구 질문

RQ1고정된 $\alpha$-divergence 오차가 $k$-armed 밴딧 문제에서 톰슨 샘플링의 손실에 어떤 영향을 미치는가?
RQ2왜 $\alpha > 0$이고 추론이 근사적일 경우 톰슨 샘플링에서 탐색이 부족해지는가?
RQ3큰 추론 오차가 존재하고 $\alpha \leq 0$일 경우 강제 탐색이 비선형 손실을 회복시킬 수 있는가?
RQ4$\alpha$-divergence는 톰슨 샘플링의 추론 근사에 대한 강건성 결정에 어떤 역할을 하는가?

주요 결과

$\alpha > 0$인 경우, $\alpha$-divergence에서조차 작은 일정한 추론 오차가 지속적인 탐색 부족으로 이어져 선형 손실을 초래한다.
$\alpha \leq 0$인 경우, 소량의 강제 탐색을 추가하면 심지어 큰 일정한 추론 오차가 존재하더라도 손실이 비선형적으로 유지될 수 있다.
$\alpha > 0$일 경우 성능 저하는 근본적으로 $\alpha$-divergence 오차의 방향과 관련이 있으며, 이는 사후 분포가 탐색 부족 쪽으로 편향되게 한다.
$\alpha \leq 0$인 경우, $\alpha$-divergence의 구조 덕분에 정확하지 않은 추론의 영향을 상쇄하기 위해 강제 탐색을 사용할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.