Skip to main content
QUICK REVIEW

[論文レビュー] Thompson Sampling and Approximate Inference

My V. T. Phan, Yasin Abbasi Yadkori|arXiv (Cornell University)|Jan 1, 2019
Advanced Bandit Algorithms Research被引用数 15
ひとこと要約

本稿は、$k$-腕バンディット問題におけるトムソンサンプリングに近似推論が与える影響を調査し、$\alpha > 0$ の場合、$\alpha$-ダイバージェンスにおけるわずかな誤差ですら、未探索の度合いが持続するため線形なリグレットを引き起こすことを示している。$\alpha \leq 0$ の場合、最小限の強制的探索を追加することで、大きな推論誤差に対しても性能劣化が緩和される。

ABSTRACT

We study the effects of approximate inference on the performance of Thompson sampling in the $k$-armed bandit problems. Thompson sampling is a successful algorithm for online decision-making but requires posterior inference, which often must be approximated in practice. We show that even small constant inference error (in $\alpha$-divergence) can lead to poor performance (linear regret) due to under-exploration (for $\alpha 0$) by the approximation. While for $\alpha > 0$ this is unavoidable, for $\alpha \leq 0$ the regret can be improved by adding a small amount of forced exploration even when the inference error is a large constant.

研究の動機と目的

  • 近似事後分布を用いたトムソンサンプリングの性能に及ぼす近似事後推論の影響を分析すること。
  • 推論誤差が悪いリグレット性能(特に線形リグレット)を引き起こす条件を同定すること。
  • 推論近似が不正確な場合に、強制的探索がリグレットを改善できるかどうかを検討すること。
  • $\alpha$-ダイバージェンスが推論誤差を定量化する役割を果たし、その探索効率に与える影響を特徴づけること。

提案手法

  • 本稿では、$\alpha$-ダイバージェンスを用いて推論誤差を測定する近似事後分布を用いたトムソンサンプリングをモデル化する。
  • 異なる$\alpha$の値におけるリグレットの挙動を分析し、$\alpha > 0$ と $\alpha \leq 0$ を区別する。
  • $\alpha \leq 0$ の場合、近似誤差による未探索を是正するために、わずかな量の強制的探索を導入する。
  • 理論的分析により、定数の推論誤差が存在する場合でもリグレットが非線形に保たれる条件を導出する。
  • 情報理論的ツールを活用し、$\alpha$-ダイバージェンスと探索効率の関係を関係づける。

実験結果

リサーチクエスチョン

  • RQ1定数の$\alpha$-ダイバージェンス誤差が、$k$-腕バンディット問題におけるトムソンサンプリングのリグレットにどのように影響するか?
  • RQ2$\alpha > 0$ で推論が近似されている場合、なぜトムソンサンプリングで未探索が生じるのか?
  • RQ3推論誤差が大きく、$\alpha \leq 0$ の場合に、強制的探索によって非線形リグレットを回復できるか?
  • RQ4$\alpha$-ダイバージェンスが、トムソンサンプリングの推論近似に対するロバストネスを決定づける役割を果たすか?

主な発見

  • $\alpha > 0$ の場合、$\alpha$-ダイバージェンスにおけるわずかな定数誤差ですら、持続的な未探索に起因して線形リグレットを引き起こす。
  • $\alpha \leq 0$ の場合、わずかな強制的探索を追加することで、大きな定数誤差が存在してもリグレットは非線形に保たれる可能性がある。
  • $\alpha > 0$ の場合の性能劣化は、本質的に$\alpha$-ダイバージェンス誤差の方向性に起因し、事後分布が未探索に偏る。
  • $\alpha \leq 0$ の場合、$\alpha$-ダイバージェンスの構造のおかげで、不正確な推論の影響を相殺するための強制的探索が有効に働く。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。