Skip to main content
QUICK REVIEW

[논문 리뷰] Thompson Sampling and Approximate Inference

My V. T. Phan, Yasin Abbasi Yadkori|arXiv (Cornell University)|2019. 01. 01.
Advanced Bandit Algorithms Research인용 수 15
한 줄 요약

이 논문은 $k$-armed 밴딧 문제에서 근사적 추론이 톰슨 샘플링에 미치는 영향을 조사하며, $\alpha > 0$일 경우 $\alpha$-divergence에서조차 작은 오차가 지속적인 부족 탐색으로 이어져 선형적 손실을 초래할 수 있음을 보여준다. $\alpha \leq 0$인 경우, 최소한의 강제 탐색을 추가하면 심지어 큰 추론 오차가 있을 때도 성능 저하가 완화된다.

ABSTRACT

We study the effects of approximate inference on the performance of Thompson sampling in the $k$-armed bandit problems. Thompson sampling is a successful algorithm for online decision-making but requires posterior inference, which often must be approximated in practice. We show that even small constant inference error (in $\alpha$-divergence) can lead to poor performance (linear regret) due to under-exploration (for $\alpha 0$) by the approximation. While for $\alpha > 0$ this is unavoidable, for $\alpha \leq 0$ the regret can be improved by adding a small amount of forced exploration even when the inference error is a large constant.

연구 동기 및 목표

  • 근사 사후 분포를 사용한 톰슨 샘플링의 성능에 대한 근사적 사후 추론의 영향을 분석하는 것.
  • 특히 선형 손실을 초래하는 조건에서 추론 오차가 성능 저하를 유발하는 조건을 규명하는 것.
  • 근사적 추론이 정확하지 않을 경우 강제 탐색이 손실에 어떤 영향을 미치는지 탐색하는 것.
  • $\alpha$-divergence가 추론 오차를 정량화하고 탐색에 미치는 영향을 규명하는 데서의 역할을 특성화하는 것.

제안 방법

  • 논문은 $\alpha$-divergence를 사용해 추론 오차를 측정하는 방식으로 근사 사후 분포를 사용한 톰슨 샘플링을 모델링한다.
  • 다양한 $\alpha$ 값에서의 손실 행동을 분석하며, $\alpha > 0$과 $\alpha \leq 0$을 구분한다.
  • $\alpha \leq 0$인 경우, 근사 오차로 인한 탐색 부족 현상을 보완하기 위해 소량의 강제 탐색을 도입한다.
  • 이론적 분석을 통해 일정한 추론 오차가 존재하더라도 손실이 비선형적으로 유지되는 조건을 유도한다.
  • 정보이론적 도구를 활용해 $\alpha$-divergence와 탐색 효율성 간의 관계를 규명한다.

실험 결과

연구 질문

  • RQ1고정된 $\alpha$-divergence 오차가 $k$-armed 밴딧 문제에서 톰슨 샘플링의 손실에 어떤 영향을 미치는가?
  • RQ2왜 $\alpha > 0$이고 추론이 근사적일 경우 톰슨 샘플링에서 탐색이 부족해지는가?
  • RQ3큰 추론 오차가 존재하고 $\alpha \leq 0$일 경우 강제 탐색이 비선형 손실을 회복시킬 수 있는가?
  • RQ4$\alpha$-divergence는 톰슨 샘플링의 추론 근사에 대한 강건성 결정에 어떤 역할을 하는가?

주요 결과

  • $\alpha > 0$인 경우, $\alpha$-divergence에서조차 작은 일정한 추론 오차가 지속적인 탐색 부족으로 이어져 선형 손실을 초래한다.
  • $\alpha \leq 0$인 경우, 소량의 강제 탐색을 추가하면 심지어 큰 일정한 추론 오차가 존재하더라도 손실이 비선형적으로 유지될 수 있다.
  • $\alpha > 0$일 경우 성능 저하는 근본적으로 $\alpha$-divergence 오차의 방향과 관련이 있으며, 이는 사후 분포가 탐색 부족 쪽으로 편향되게 한다.
  • $\alpha \leq 0$인 경우, $\alpha$-divergence의 구조 덕분에 정확하지 않은 추론의 영향을 상쇄하기 위해 강제 탐색을 사용할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.