[論文レビュー] Neural Thompson Sampling
本稿では、深層ニューラルネットワークを用いた新しい事後分布——平均がニューラルネットワークの出力で、分散がニューラル接線特徴から導かれる——を備えた、文脈的バンディットアルゴリズムであるNeural Thompson Sampling (NeuralTS) を提案する。この手法は、文脈的バンディットにおける最適な境界と一致する $\mathcal{O}(T^{1/2})$ の累積的後悔を達成し、ベンチマークデータセット上で強力な性能を示す。
Thompson Sampling (TS) is one of the most effective algorithms for solving contextual multi-armed bandit problems. In this paper, we propose a new algorithm, called Neural Thompson Sampling, which adapts deep neural networks for both exploration and exploitation. At the core of our algorithm is a novel posterior distribution of the reward, where its mean is the neural network approximator, and its variance is built upon the neural tangent features of the corresponding neural network. We prove that, provided the underlying reward function is bounded, the proposed algorithm is guaranteed to achieve a cumulative regret of $\mathcal{O}(T^{1/2})$, which matches the regret of other contextual bandit algorithms in terms of total round number $T$. Experimental comparisons with other benchmark bandit algorithms on various data sets corroborate our theory.
研究の動機と目的
- 文脈的バンディットにおける探索と活用の両方を効果的に統合する深層ニューラルネットワークを用いたトムソンサンプリングアルゴリズムの開発。
- 従来の単純なモデルに限られていた、ニューラルネットワークベースのトムソンサンプリングに対する理論的後悔保証の提供。
- 平均がニューラルネットワークの予測で、分散がニューラル接線特徴に基づく事後分布の設計。これにより、整合的な不確実性評価が可能になる。
- 実世界のベンチマークデータセットを用いた、最先端のベースラインと比較してのアルゴリズム性能の実証的検証。
提案手法
- 全結合の順伝播ニューラルネットワーク $ f(\mathbf{x}; \bm{\theta}) $ を用い、ReLU活性化関数とスケーリングされた出力を用いて期待報酬をモデル化する。
- 平均が $ f(\mathbf{x}; \bm{\theta}) $ で、分散が $ \sigma_{t,k}^2 = \lambda \mathbf{g}^\top(\mathbf{x}_{t,k}; \bm{\theta}_{t-1}) \mathbf{U}_{t-1}^{-1} \mathbf{g}(\mathbf{x}_{t,k}; \bm{\theta}_{t-1}) / m $ である、新しい事後分布を構築する。ここで $ \mathbf{g} $ はニューラル接線特徴ベクトルである。
- 報酬推定の不確実性は、実効的フィッシャー情報行列 $ \mathbf{U}_{t-1} $ の逆行列から得られ、ニューラル接線カーネル(NTK)を用いて近似される。
- トムソンサンプリングは、この事後分布からのサンプリングにより次に選択するアームを決定することで、探索と活用のバランスをとる。
- 後悔解析では、有効次元 $ \widetilde{d} $ を用い、$ \widetilde{d} = \log \det(\mathbf{I} + \mathbf{H}/\lambda) / \log(1 + TK) $ と定義する。ここで $ \mathbf{H} $ はNTKグラム行列である。
- 集中不等式と行列解析を用いて、ニューラル接線特徴のノルムおよび事後分散に関する高確率的バインドを導出する。
実験結果
リサーチクエスチョン
- RQ1ニューラルネットワークベースのトムソンサンプリングアルゴリズムは、文脈的バンディットにおいて近似的に最適な後悔境界を達成できるか?
- RQ2バンディット設定における効果的な探索のため、深層ニューラルネットワークの予測における不確実性を適切に定量化する方法は何か?
- RQ3ニューラル接線特徴を分散推定に用いるトムソンサンプリングアルゴリズムの理論的後悔性能は何か?
- RQ4提案手法は、既存のニューラルバンディットアルゴリズムと比較して、後悔および累積報酬の観点でどのように性能を発揮するか?
主な発見
- 提案されたNeural Thompson Samplingアルゴリズムは、$ \mathcal{O}(T^{1/2}) $ の累積的後悔を達成し、文脈的バンディットにおける最適レートと一致する。
- 後悔バインドは $ \widetilde{\mathcal{O}}(\widetilde{d} \sqrt{T}) $ であり、$ \widetilde{d} $ は有効次元である。このバインドは線形の場合にタイトである。
- 従来の手法が最終層でのみ不確実性を考慮するのに対し、本手法はニューラル接線カーネルを介して、すべてのネットワーク層にわたる整合的な不確実性評価を可能にする。
- 複数のベンチマークデータセットにおける実験的評価から、NeuralTSは最先端のベースラインと競合する性能を示し、実用的有用性を確認した。
- 理論的解析により、事後分散が高確率で有界であることが示され、安定した探索が保証される。
- 文脈がNTKが誘導するRKHS内の低次元非線形部分空間に存在する場合、有効次元 $ \widetilde{d} $ は $ d' + 1 $ で有界であり、ここで $ d' $ は部分空間の内因的次元である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。