Skip to main content
QUICK REVIEW

[論文レビュー] Why is Posterior Sampling Better than Optimism for Reinforcement Learning?

Ian Osband, Benjamin Van Roy|arXiv (Cornell University)|Jul 1, 2016
Advanced Bandit Algorithms Research参考文献 29被引用数 115
ひとこと要約

本論文は、後方サンプリング(PSRL)がベイズ的後悔において楽観的な RL に匹敵または上回り、有限ホライズン MDP に対して ~O(H√SAT) の改善された境界を達成し、実証的に UCRL2 のような OFU ベースの手法を上回ることを示している。

ABSTRACT

Computational results demonstrate that posterior sampling for reinforcement learning (PSRL) dramatically outperforms algorithms driven by optimism, such as UCRL2. We provide insight into the extent of this performance boost and the phenomenon that drives it. We leverage this insight to establish an $\ ilde{O}(H\\sqrt{SAT})$ Bayesian expected regret bound for PSRL in finite-horizon episodic Markov decision processes, where $H$ is the horizon, $S$ is the number of states, $A$ is the number of actions and $T$ is the time elapsed. This improves upon the best previous bound of $\ ilde{O}(H S \\sqrt{AT})$ for any reinforcement learning algorithm.

研究の動機と目的

  • Finite-horizon MDPs の探索-利用のトレードオフをベイズ的枠組みで動機づける。
  • ベイズ推定サンプリング(PSRL)を、楽観性主導の OFU アルゴリズム(例:UCRL2)と、後悔とサンプル効率の観点で比較する。
  • PSRL のベイズ的後悔境界を導出し、任意の RL アルゴリズムに対する既存境界を改善する。
  • PSRL が OFU 法よりも優れている実証的証拠を提供し、計算効率と統計効率のトレードオフを論じる。

提案手法

  • 未知の MDP を確率変数として扱うベイズ RL として強化学習を定式化する。
  • BayesRegret を定義し、確率的楽観性を介して PSRL を OFU に関連付ける。
  • Gaussian-Dirichlet concentration ツールと後方サンプリングの議論を用いて ~O(H√SAT) の PSRL の BayesRegret 境界を証明する。
  • Conjectured なより厳密な境界 ~O(√(HSAT)) を提示し、下界と対比する。理論を計算的実験で補強する。
  • Conjectured な改善を示す例として、Gaussian-PSRL の変種を含め、推論と計算上のトレードオフを説明する。

実験結果

リサーチクエスチョン

  • RQ1PSRL は OFU ベースの RL アルゴリズムと比べてベイズ的後悔のパフォーマンスをどう示すか?
  • RQ2有限ホライズン、表形式 MDP において、PSRL は既存の OFU アプローチと比較してベイズ的後悔境界を改善できるか?
  • RQ3PSRL の性能を促進する信頼集合の構築とサンプリングの役割は何か?
  • RQ4実証的結果は UCRL2 および関連 OFU 法よりも PSRL の理論上の利点を支持するか?

主な発見

  • PSRL は統計的効率性を楽観的 RL と同等の水準に、ベイズ的後悔において定数倍の誤差で一致させる。
  • PSRL はベイズ的後悔境界を Õ(H√SAT) に達成し、以前の Õ(HS√AT) の境界を改善する。
  • 実証的な結果は、有限ホライズン MDP において PSRL が OFU ベースの手法(例:UCRL2)を大幅に上回ることを示している。
  • 同等の統計的効率性を OFU のみで達成することは計算的に困難である可能性があり、PSRL は計算的に実現可能なままである。
  • 特定の解析の下でより厳密な境界 Õ(√(HSAT)) が可能であるという改善の予測的仮説を提案する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。