QUICK REVIEW

[論文レビュー] Sample complexity of episodic fixed-horizon reinforcement learning

Christoph Dann, Emma Brunskill|arXiv (Cornell University)|Dec 7, 2015

Reinforcement Learning in Robotics参考文献 21被引用数 85

ひとこと要約

この論文は、エピソード型固定ホライズン強化学習におけるタイトなサンプル複雑度の境界を確立し、O(|S|²|A|H²/∊² ln 1/δ) の一致する上界と Ω(|S||A|H²/∊² ln 1/δ + c) の下界をそれぞれ導出している。これは対数的要因と線形 |S| の依存性を除けば、正確に一致する。Bernsteinの不等式を用いることで、従来の H³ 時間ホライズン依存性を改善した。

ABSTRACT

Recently, there has been significant progress in understanding reinforcement learning in discounted infinite-horizon Markov decision processes (MDPs) by deriving tight sample complexity bounds. However, in many real-world applications, an interactive learning agent operates for a fixed or bounded period of time, for example tutoring students for exams or handling customer service requests. Such scenarios can often be better treated as episodic fixed-horizon MDPs, for which only looser bounds on the sample complexity exist. A natural notion of sample complexity in this setting is the number of episodes required to guarantee a certain performance with high probability (PAC guarantee). In this paper, we derive an upper PAC bound O(|S|2|A|H2/∊2 ln 1/δ) and a lower PAC bound Ω(|S||A|H2/∊2 ln 1/δ+c) that match up to log-terms and an additional linear dependency on the number of states |S|. The lower bound is the first of its kind for this setting. Our upper bound leverages Bernstein's inequality to improve on previous bounds for episodic finite-horizon MDPs which have a time-horizon dependency of at least H3.

研究の動機と目的

エピソード型固定ホライズンMDPにおける既存の上界と下界の間のギャップを埋めること。
固定ホライズンエピソード型強化学習におけるサンプル複雑度の最初の既知の下界を確立すること。
Bernsteinの不等式を活用することで、H³ に依存する従来の上界を改善すること。
状態空間 |S|、行動空間 |A|、ホライズン H、誤差 ∊ にタイトな依存性を示す固定ホライズンMDPに対するPAC学習保証を提供すること。

提案手法

Bernsteinの不等式を用いて時間ホライズン H に依存する部分をタイトにしたPAC上界を導出する。
固定ホライズンMDPにおける最初の既知の Ω(|S||A|H²/∊² ln 1/δ + c) のサンプル複雑度下界を示すための下界インスタンスを構築する。
PAC学習の文脈において、エピソード長 H、状態空間サイズ |S|、行動空間 |A| の相互作用を分析する。
集中不等式を用いて、固定ホライズンエピソードにおける価値関数近似の推定誤差を制限する。
導出された境界を従来の結果と比較し、H 依存性が H³ から H² に改善されたことを示す。

実験結果

リサーチクエスチョン

RQ1固定ホライズンMDPにおいてPAC保証を達成するために必要なエピソード数のタイトな上界は何か？
RQ2固定ホライズンエピソード型強化学習におけるサンプル複雑度の根本的な下界は何か？
RQ3サンプル複雑度は、状態数 |S|、行動数 |A|、ホライズン H、および所望の精度 ∊ にどのように依存するか？
RQ4従来の上界に見られる H³ 依存性を改善できるか？もし可能であれば、どのような技術を用いるか？

主な発見

サンプル複雑度の上界は O(|S|²|A|H²/∊² ln 1/δ) であり、Bernsteinの不等式を用いることで、従来の H³ 依存性を改善した。
固定ホライズンMDPにおける最初の既知の下界は Ω(|S||A|H²/∊² ln 1/δ + c) であり、上界と対数的要因を除いて一致する。
上界と下界は、|S|、|A|、H、∊、δ への依存性が、対数項と線形 |S| 要因を除いて一致する。
H 依存性が H³ から H² に改善されたことは、固定ホライズン強化学習における理論的保証の著しいタイトニングを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。