QUICK REVIEW

[論文レビュー] Multi-Step Greedy and Approximate Real Time Dynamic Programming

Yonathan Efroni, Mohammad Ghavamzadeh|arXiv (Cornell University)|Sep 10, 2019

Reinforcement Learning in Robotics参考文献 20被引用数 5

ひとこと要約

本稿では、前方予測の範囲を h に拡大することで、サンプル計算量と空間計算量を削減する、Real-Time Dynamic Programming (RTDP) の多段階グリーディー拡張版である h-RTDP を提案する。理論的に、h を大きくすることでサンプル計算量が削減され、近似設定においても漸近的性能保証が維持されることを示し、大規模な前方予測範囲に対して、サンプル効率が明示的に向上する最初のアルゴリズムである。

ABSTRACT

Real Time Dynamic Programming (RTDP) is a well-known Dynamic Programming (DP) based algorithm that combines planning and learning to find an optimal policy for an MDP. It is a planning algorithm because it uses the MDP's model (reward and transition functions) to calculate a 1-step greedy policy w.r.t.~an optimistic value function, by which it acts. It is a learning algorithm because it updates its value function only at the states it visits while interacting with the environment. As a result, unlike DP, RTDP does not require uniform access to the state space in each iteration, which makes it particularly appealing when the state space is large and simultaneously updating all the states is not computationally feasible. In this paper, we study a generalized multi-step greedy version of RTDP, which we call $h$-RTDP, in its exact form, as well as in three approximate settings: approximate model, approximate value updates, and approximate state abstraction. We analyze the sample, computation, and space complexities of $h$-RTDP and establish that increasing $h$ improves sample and space complexity, with the cost of additional offline computational operations. For the approximate cases, we prove that the asymptotic performance of $h$-RTDP is the same as that of a corresponding approximate DP -- the best one can hope for without further assumptions on the approximation errors. $h$-RTDP is the first algorithm with a provably improved sample complexity when increasing the lookahead horizon.

研究の動機と目的

大規模な MDP において、状態へのアクセスが限られている場合の、従来の RTDP の高いサンプル計算量を軽減すること。
1 ステップ先読みに限らない RTDP の一般化として、前方予測範囲 h を用いた多段階グリーディー手法を導入すること。
正確な設定と近似設定の両方において、サンプル計算量、計算量、空間計算量のトレードオフを分析すること。
モデル近似、値関数更新の近似、状態抽象化の下での h-RTDP に対する理論的保証を確立すること。
近似設定において、近似誤差に関する追加仮定なしに、最良の漸近的性能を達成できることを示すこと。

提案手法

1 ステップバックアップではなく、h ステップグリーディーバックアップを用いる h-RTDP を RTDP の一般化として提案する。
訪問された状態でのみ値関数を更新することで、RTDP のオンライン学習特性を保持する。
3 種類の近似バージョンを導入：近似モデル、近似値関数更新、近似状態抽象化。
サンプル計算量、計算量、空間計算量の観点から複雑度を分析し、h を大きくすることでサンプル計算量と空間計算量が削減されることを示す。
理論的分析により、h-RTDP の漸近的性能が、同じ仮定下での最良の近似 DP と一致することを証明する。
前方予測範囲 h を大きくした場合に、サンプル計算量が明示的に向上する最初のアルゴリズムとして、h-RTDP を確立する。

実験結果

リサーチクエスチョン

RQ1前方予測範囲 h を大きくすると、RTDP のサンプル計算量と空間計算量にどのような影響を与えるか？
RQ2モデルまたは値関数の近似が存在する状況下でも、多段階グリーディー手法が、近似 DP と同等の漸近的性能を維持できるか？
RQ3h-RTDP において、オフライン計算コストとオンラインのサンプル効率のトレードオフは何か？
RQ4近似設定において、近似誤差に関する追加仮定なしに、h-RTDP は最良の漸近的性能を達成できるか？
RQ5前方予測範囲 h を大きくした場合に、サンプル計算量が明示的に向上する最初のアルゴリズムとして、h-RTDP は成立するか？

主な発見

h-RTDP において前方予測範囲 h を大きくすると、標準的な RTDP と比較して、サンプル計算量と空間計算量の両方が削減される。
オフライン計算コストは h に比例して増加するが、これに対してオンラインの効率性が向上する。
近似設定（モデル、値関数更新、状態抽象化）において、h-RTDP は最良の近似 DP と同等の漸近的性能を達成する。
前方予測範囲 h を大きくした場合に、サンプル計算量が明示的に向上する最初のアルゴリズムとして、h-RTDP が成立する。
理論的分析により、h-RTDP は、標準的な RTDP と同等の仮定下で最適性保証を維持するが、スケーラビリティが向上する。
近似設定におけるアルゴリズムの性能は、近似の品質によって制限されるが、誤差に関する追加仮定は不要である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。