Skip to main content
QUICK REVIEW

[論文レビュー] (More) Efficient Reinforcement Learning via Posterior Sampling

Ian Osband, Dan Russo|arXiv (Cornell University)|Jun 4, 2013
Advanced Bandit Algorithms Research参考文献 19被引用数 246
ひとこと要約

この論文は、MDPの事後分布からサンプリングして最適方策を実行することで方策を選択する、証明可能に効率的なアルゴリズムであるPosterior Sampling for Reinforcement Learning (PSRL)を提案する。これは、非楽観的アルゴリズムにおいて最初の部類に属する $\tilde{O}(\tau S\tilde{S}\tilde{A}\tilde{T})$ のレグレットバウンドを達成し、シミュレーションにおいてUCRL2のような最先端の楽観的手法を上回り、より優れたサンプル効率と実用的性能を示している。

ABSTRACT

Most provably-efficient learning algorithms introduce optimism about poorly-understood states and actions to encourage exploration. We study an alternative approach for efficient exploration, posterior sampling for reinforcement learning (PSRL). This algorithm proceeds in repeated episodes of known duration. At the start of each episode, PSRL updates a prior distribution over Markov decision processes and takes one sample from this posterior. PSRL then follows the policy that is optimal for this sample during the episode. The algorithm is conceptually simple, computationally efficient and allows an agent to encode prior knowledge in a natural way. We establish an $ ilde{O}(τS \sqrt{AT})$ bound on the expected regret, where $T$ is time, $τ$ is the episode length and $S$ and $A$ are the cardinalities of the state and action spaces. This bound is one of the first for an algorithm not based on optimism, and close to the state of the art for any reinforcement learning algorithm. We show through simulation that PSRL significantly outperforms existing algorithms with similar regret bounds.

研究の動機と目的

  • 楽観的探索に依存しない、証明可能に効率的な強化学習アルゴリズムの開発。
  • MDPにおける事後サンプリングに基づくアプローチの有限時間レグレットバウンドの確立。
  • PSRLが計算的に効率的であり、事前知識を自然に組み込めることが示すこと。
  • シミュレーションにより、PSRLが類似のレグレットバウンドを持つ既存のアルゴリズムを著しく上回ることの実証。
  • 事後サンプリングが強化学習における楽観的探索の代替として実用的である理論的・実験的根拠の確立。

提案手法

  • PSRLは固定長のエピソードで動作し、各エピソードの開始時にMDPの事後分布から1つのMDPをサンプリングする。
  • その後、サンプルされたMDPの最適方策をエピソード期間中実行する。
  • アルゴリズムは、観測データに従って逐次更新される、MDPの遷移ダイナミクスおよび報酬分布の事前分布を維持する。
  • レグレット解析では、事後分散から導かれる探索ボーナスの和の上限と集中不等式が用いられる。
  • 学習アルゴリズムと理論的解析を分離することで、柔軟な設計と頑健な性能を実現する。
  • 効率的な事後更新とサンプリングを可能にするために、共役事前分布(遷移確率にはディリクレ分布、報酬にはノーマル・ガンマ分布)を用いる。

実験結果

リサーチクエスチョン

  • RQ1事後サンプリングは、楽観的探索に依存せずに、強化学習において証明可能に効率的な学習を達成できるか?
  • RQ2エピソード長、状態空間および行動空間のサイズ、時間ホライズンに関して、PSRLの有限時間レグレットバウンドはどのように表されるか?
  • RQ3PSRLは、UCRL2のような楽観的アルゴリズムと比較して、レグレットと学習速度の点でどのように異なるか?
  • RQ4PSRLは、事前知識を効果的に組み込み、計算的に効率的であると言えるか?
  • RQ5困難なMDPにおいて、事後サンプリングは楽観的アプローチに比べて優れたサンプル効率を示すか?

主な発見

  • PSRLは、$\tilde{O}(\tau S\tilde{S}\tilde{A}\tilde{T})$ の期待レグレットバウンドを達成し、これは非楽観的強化学習アルゴリズムにおいて最初の部類に属する。
  • RiverSwim MDPにおいて、エピソード的および無限時間ホライズンの両設定下で、PSRLはUCRL2と比較して合計レグレットを90%以上削減した。
  • 10状態・5行動のランダムMDPにおいて、10,000ステップの平均レグレットはPSRLで $7.30 \times 10^3$、UCRL2では $1.13 \times 10^5$ であった。
  • エピソード的および非エピソード的両設定において、PSRLはUCRL2を大幅に上回り、時間経過に伴うレグレットの収束が速かった。
  • シミュレーションでは、事前分布が不正確であってもPSRLの性能は頑健であることが示された。
  • PSRLのレグレットバウンドは事前分布の構造に依存せず、各エピソードで1回のサンプルによる方策最適化により計算的に効率的である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。