QUICK REVIEW

[論文レビュー] An Information-Theoretic Analysis for Thompson Sampling with Many Actions

Shi Dong, Benjamin Van Roy|arXiv (Cornell University)|May 30, 2018

Advanced Bandit Algorithms Research被引用数 24

ひとこと要約

本稿は、多くの行動を伴うバンディット問題におけるスミスティングサンプリングの情報理論的分析を新たに提案し、エントロピーに基づくレギュレートバウンドを、行動数に依存しないよりタイトなレート・ディストーション枠組みに置き換える。線形バンディットでは $O(d\sqrt{T\log T})$ のベイジアンレギュレートバウンドを確立し、ロジスティックバンディットではロジスティック関数の傾きが大きくなるにつれてバウンドが減少する。従来の手法はモデルパラメータに悪く依存していたが、本稿の手法はそれを改善する。

ABSTRACT

Information-theoretic Bayesian regret bounds of Russo and Van Roy capture the dependence of regret on prior uncertainty. However, this dependence is through entropy, which can become arbitrarily large as the number of actions increases. We establish new bounds that depend instead on a notion of rate-distortion. Among other things, this allows us to recover through information-theoretic arguments a near-optimal bound for the linear bandit. We also offer a bound for the logistic bandit that dramatically improves on the best previously available, though this bound depends on an information-theoretic statistic that we have only been able to quantify via computation.

研究の動機と目的

エントロピーによる不確実性測度が行動集合のサイズに依存する既存の情報理論的レギュレートバウンドの限界を是正する。これは、大規模な行動集合ではエントロピーが任意に増大するためである。
情報取得とレギュレートのトレードオフをよりよく捉えるために、レート・ディストーション理論に基づく新しい分析フレームワークを構築する。
行動数の増加に対しても有効な、線形および一般化線形バンディットにおけるよりタイトなベイジアンレギュレートバウンドを導出する。
ロジスティックバンディットにおける従来のバウンドが、ロジスティック関数が急峻（＝決定的）になるにつれて劣化するという直感に反するスケーリング問題を解消する。
理論的バウンドと計算的証拠を通じて、新しいフレームワークを検証する。特に、情報比に関する予想が計算的に支持されるロジスティックバンディットのケースに注目する。

提案手法

ルッソとヴァン・ロイの分析におけるエントロピーに基づく事前不確実性測度を、レート・ディストーションに基づく不確実性概念に置き換える。これは、最適行動を近似するために必要な最小情報量を測定する。
レート・ディストーション理論を応用し、行動集合が大きくなっても安定し、問題の学習難易度をより的確に反映する新たな事前不確実性測度を定義する。
エントロピーではなく、レート・ディストーション関数に依存する新しい情報比分析を用いて、レギュレートバウンドを導出する。これにより、高次元および大規模行動設定におけるスケーリングが改善される。
線形バンディットでは、幾何的カバーの議論を活用し、情報比をレート・ディストーション原理で制約することで、$O(d\sqrt{T\log T})$ のレギュレートバウンドを達成する。
ロジスティックバンディットでは、ロジスティック関数の傾きパラメータ $\beta$ が増加するにつれてバウンドが減少するレギュレートバウンドを導出する。これは、情報比に関する予想に依存しており、計算的に検証されている。
行動空間およびパrameter空間の階層的分割を、$\ell_2$-ノルムカバーを用いて行い、最適行動集合の複雑さを制御し、レート・ディストーション測度に対するタイトなバウンドを導出する。

実験結果

リサーチクエスチョン

RQ1エントロピーによる行動集合サイズに依存する情報理論的レギュレートバウンドの依存性を、単なる集合の大きさではなく、学習の難易度を反映するより堅牢な測度に置き換えることは可能か？
RQ2レート・ディストーションに基づく分析は、エントロピーに基づくバウンドと比較して、線形バンディットにおけるスミスティングサンプリングのレギュレートバウンドをよりタイトにできるか？
RQ3なぜ従来のロジスティックバンディットのバウンドは、ロジスティック関数が急峻になるにつれて劣化するのか？これは、新しい情報理論的フレームワークによって是正可能か？
RQ4ロジスティックバンディットにおけるスミスティングサンプリングの情報比を、モデルの決定性が高くなるにつれて改善するバウンドに結びつける形で特徴づけられるか？
RQ5提示されたレート・ディストーションフレームワークは、大規模または連続的行動空間を持つ他の一般化線形バンディット問題へ一般化可能か？

主な発見

本稿は、$d$次元の線形バンディットに対して $O(d\sqrt{T\log T})$ のベイジアンレギュレートバウンドを確立した。これは、以前の $O(d\sqrt{T\log T})$ のバウンドよりもタイトであり、行動数に依存しない。
ルッソとヴァン・ロイ（2016）の情報理論的バウンド $O(\sqrt{dTH(A^*)})$ よりも、最適行動のエントロピーに明示的な依存を排除することで改善された。
ロジスティックバンディットでは、傾きパラメータ $\beta$ が大きくなるにつれてバウンドが減少し、固定された $T$ に対して $2d\sqrt{T\log 3}$ に収束する。これは、従来の研究で見られた直感に反するスケーリング問題を解消する。
分析は、ロジスティックバンディットにおけるスミスティングサンプリングの情報比に関する予想に依存しており、計算実験で支持されているが、まだ解析的に証明されていない。
レート・ディストーションフレームワークは、エントロピーに比べてより洗練された事前不確実性の測度を提供する。特に、高次元または連続的行動空間において効果的である。
導出されたバウンドは、$\Omega(d\sqrt{T})$ の最悪ケースレギュレート下界の $O(\sqrt{\log T})$ 要因の範囲内にあり、線形バンディット設定において近似的に最適であることが示唆される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。