QUICK REVIEW

[論文レビュー] High-Dimensional Continuous Control Using Generalized Advantage Estimation

John Schulman, Philipp Moritz|arXiv (Cornell University)|Jun 8, 2015

Reinforcement Learning in Robotics参考文献 23被引用数 1,745

ひとこと要約

本論文は、時間的信用配分方式と価値関数推定を組み合わせることで、方策勾配強化学習における分散を低減する一般化された利得推定（GAE）手法を提案する。これにより、高次元連続制御タスクにおける深層ニューラルネットワーク方策の安定した学習が可能となり、わずか1〜2週間のシミュレート済み経験のみで人間水準のパフォーマンスを達成する。

ABSTRACT

Policy gradient methods are an appealing approach in reinforcement learning because they directly optimize the cumulative reward and can straightforwardly be used with nonlinear function approximators such as neural networks. The two main challenges are the large number of samples typically required, and the difficulty of obtaining stable and steady improvement despite the nonstationarity of the incoming data. We address the first challenge by using value functions to substantially reduce the variance of policy gradient estimates at the cost of some bias, with an exponentially-weighted estimator of the advantage function that is analogous to TD(lambda). We address the second challenge by using trust region optimization procedure for both the policy and the value function, which are represented by neural networks. Our approach yields strong empirical results on highly challenging 3D locomotion tasks, learning running gaits for bipedal and quadrupedal simulated robots, and learning a policy for getting the biped to stand up from starting out lying on the ground. In contrast to a body of prior work that uses hand-crafted policy representations, our neural network policies map directly from raw kinematics to joint torques. Our algorithm is fully model-free, and the amount of simulated experience required for the learning tasks on 3D bipeds corresponds to 1-2 weeks of real time.

研究の動機と目的

高次元連続制御タスクにおける方策勾配法の高い分散と不安定性を解消すること。
勾配推定の改善により、深層強化学習における有効な学習に必要なサンプル数を削減すること。
信頼領域最適化を用いて、深層ニューラルネットワーク方策および価値関数の安定した学習を可能にすること。
手作業で設計された特徴量を一切使用せずに、生の運動学的観測から直接、走行や立ち上がりといった複雑な運動スキルを学習すること。

提案手法

γおよびλでパラメータ化された、時系列差分とモンテカルロ推定を融合する分散低減技術としての一般化利得推定器（GAE）を導入する。
TD(λ)に類似した指数的重み付けによる利得関数推定を用い、方策勾配推定におけるバイアスと分散のバランスをとる。
信頼領域最適化を方策および価値関数の両方に適用し、学習中の安定的かつ一貫した更新を保証する。
生の状態入力からエンドツーエンド学習が可能な、10^4以上のパラメータを有する深層ニューラルネットワークを用いて、方策および価値関数を表現する。
信頼領域法を用いて価値関数を学習させ、サンプル効率および収束安定性を向上させる。
GAEを用いて、ブートストラップされた価値関数推定により報酬を形状化し、学習効率を向上させる。

実験結果

リサーチクエスチョン

RQ1一般化利得推定器は、高次元制御タスクにおいて、許容できるバイアスを維持しつつ、方策勾配法の分散を低減できるか？
RQ2信頼領域最適化は、連続制御設定における深層ニューラルネットワーク方策および価値関数の安定した学習を可能にするか？
RQ3生の運動学的入力からのエンドツーエンドの深層強化学習は、走行や立ち上がりといった複雑な3次元歩行行動を学習できるか？
RQ4GAEは、標準的な1ステップまたはモンテカルロ利得推定と比較して、サンプル効率および学習安定性において優れているか？
RQ5モデルフリーの深層強化学習は、複雑な3次元ロボット制御タスクにおいて、どの程度人間水準のパフォーマンスに到達できるか？

主な発見

提案手法は、わずか1〜2週間のシミュレート済み経験のみで、二足歩行および四足歩行のシミュレートロボットに対して、複雑な走行歩行を成功裏に学習した。
方策ネットワークは生の運動学的観測を直接関節トルクにマッピングし、手作業による特徴工学の必要性を排除した。
GAEは、標準的な方策勾配推定器と比較して、勾配の分散を顕著に低減し、より高速かつ安定した学習を可能にした。
方策および価値関数の両方に対して信頼領域最適化を適用したことで、一貫した性能向上が得られ、学習中にパフォーマンスの崩壊を防げた。
アルゴリズムは、伏せ寝から起き上がるような挑戦的な3次元歩行タスクにおいても、人間水準のパフォーマンスを達成した。
本手法は、異なるロボット形状および制御目的にわたり良好に一般化され、高次元連続制御におけるロバスト性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。