QUICK REVIEW

[論文レビュー] Bootstrapped Thompson Sampling and Deep Exploration

Ian Osband, Benjamin Van Roy|arXiv (Cornell University)|Jul 1, 2015

Advanced Bandit Algorithms Research参考文献 11被引用数 60

ひとこと要約

この論文は、明示的な事後分布のサンプリングを、人工データを用いたブートストラップベースのアプローチに置き換える Bootstrapped Thompson Sampling を導入する。これにより、強化学習における効果的な探索が可能となり、事後分布の維持を必要とせず、深く非線形なモデル（例：深層ニューラルネットワーク）においてもスケーラブルで、深く洗練された探索が可能になる。

ABSTRACT

This technical note presents a new approach to carrying out the kind of exploration achieved by Thompson sampling, but without explicitly maintaining or sampling from posterior distributions. The approach is based on a bootstrap technique that uses a combination of observed and artificially generated data. The latter serves to induce a prior distribution which, as we will demonstrate, is critical to effective exploration. We explain how the approach can be applied to multi-armed bandit and reinforcement learning problems and how it relates to Thompson sampling. The approach is particularly well-suited for contexts in which exploration is coupled with deep learning, since in these settings, maintaining or generating samples from a posterior distribution becomes computationally infeasible.

研究の動機と目的

深層強化学習における事後分布の維持とサンプリングの計算的非現実性に対処する。
明示的なベイズ推論を必要とせず、Thompson sampling の探索特性を保つ、実行可能な代替手法を開発する。
報酬の即時的利益ではなく、将来の学習に役立つ情報を得るための探索（深く洗練された探索）を、ブートストラップベースの人工データ生成を用いて実現する。
深層ニューラルネットワークのような大規模で非線形にパrameter化されたモデルに適した、スケーラブルで並列処理可能なフレームワークを提供する。
Thompson sampling の理論的最適性と、複雑な深層学習ベースの逐次意思決定システムにおける実用的導入のギャップを埋める。

提案手法

観測された歴史的データと人工的に生成されたデータを組み合わせ、モデルの学習に用いるハイブリッドデータセットを構築する。
ブートストラップ手法を用いて、結合されたデータセットの経験的分布からサンプリングし、ランダム化されたモデルを生成する。
各エピソードにおいて、ブートストラップされたデータセット上で学習された K 個のモデルのうちからランダムにモデルを1つ選択する（例：深層ニューラルネットワーク）。
選択されたモデルに関してグリーディポリシーを用いることで、活用と探索のバランスを取る。
探索を促進するために、確率的で楽観的な報酬とランダムな遷移を含む人工データを導入する。
並列計算によるインクリメンタルなモデル更新を可能とし、各エピソード後に完全な再訓練を必要とせずに、効率的なオンライン学習を実現する。

実験結果

リサーチクエスチョン

RQ1ブートストラップベースの手法は、明示的な事後分布の維持を必要とせず、Thompson sampling の探索行動を再現できるか？
RQ2マルチアームバンディットおよび強化学習問題において、十分で効果的な探索を確保するため、人工データはどのように構築すべきか？
RQ3事後分布のサンプリングが計算的に非現実的な深層ニューラルネットワークモデルへも、このアプローチはスケーラブルか？
RQ4標準的なブートストラップやサブサンプリング手法と比較して、人工データの導入が探索効果を向上させるか？
RQ5非線形関数近似器内において、即時の報酬が得られないが将来の学習に役立つ行動を選択する「深く洗練された探索」を、この手法がサポートできるか？

主な発見

提案手法は、明示的な事後分布の計算やサンプリングを必要とせず、Thompson sampling に類似した探索行動を達成する。
確率的で楽観的な報酬とランダムな遷移を備えた人工データは、特に深層学習の文脈において、効果的な探索を誘発する上で不可欠である。
このアルゴリズムは、即時の報酬が得られないが、後の段階での学習をより効果的にするための行動選択を可能にする、深く洗練された探索をサポートする。
このアプローチはスケーラブルで並列処理可能であり、深層ニューラルネットワークを用いた大規模な強化学習に適している。
並列的なブートストラップサンプリングによるインクリメンタルなモデル更新により、各エピソード後に完全な再訓練を必要とせず、効率的なオンライン学習が可能になる。
特に非線形的かつ高次元の設定において、標準的なブートストラップやサブサンプリング手法よりも、探索の効果が優れている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。