Skip to main content
QUICK REVIEW

[論文レビュー] Evolved Policy Gradients

Rein Houthooft, Richard Y. Chen|arXiv (Cornell University)|Feb 13, 2018
Reinforcement Learning in Robotics参考文献 48被引用数 96
ひとこと要約

EPG は進化戦略を通じて微分可能で時間的に構造化された損失を学習し、RLエージェントを訓練することで、学習を速くし、テスト時に報酬信号がなくても新しいタスクへ一般化する。

ABSTRACT

We propose a metalearning approach for learning gradient-based reinforcement learning (RL) algorithms. The idea is to evolve a differentiable loss function, such that an agent, which optimizes its policy to minimize this loss, will achieve high rewards. The loss is parametrized via temporal convolutions over the agent's experience. Because this loss is highly flexible in its ability to take into account the agent's history, it enables fast task learning. Empirical results show that our evolved policy gradient algorithm (EPG) achieves faster learning on several randomized environments compared to an off-the-shelf policy gradient method. We also demonstrate that EPG's learned loss can generalize to out-of-distribution test time tasks, and exhibits qualitatively different behavior from other popular metalearning algorithms.

研究の動機と目的

  • RLエージェントのための微分可能な損失を学習するメタ学習フレームワークを導入する。
  • 内側ループの学習が高い最終報酬を生み出すように、損失パラメータを最適化するために進化戦略を用いる。
  • エージェントの履歴を時間的畳込みを用いて活用する損失アーキテクチャを設計する。
  • 乱択された連続制御タスク全体で、より速い学習と分布外への一般化を示す。
  • 学習された損失がターゲットタスク分布上で標準的な方策勾配ベースを上回ることを示す。

提案手法

  • 外部ループが損失関数 Lφ を進化させる二重ループのメタ学習プロセスを定式化する。
  • 最近のエージェント経験に対する時間的畳込みで Lφ を表現し、履歴を捉える。
  • Lφ に対して SGD によって内部ループのポリシー πθ を最適化する。
  • 最終報酬は φ の明示的な関数ではないため φ を最適化するために進化戦略を用いる。
  • 損失へ履歴を提供するメモリユニットとバッファを組み込み、時間的畳込みからのコンテキストベクトルを加える。
  • 報酬ベースの代理損失 Lpg で学習をブートストラップし、それを0へ減衰させることで、時間とともに Lφ が訓練を支配できるようにする。

実験結果

リサーチクエスチョン

  • RQ1学習可能で微分可能な損失代理が、タスク分布上でのRLエージェントのサンプル効率と最終パフォーマンスを向上させることができるか?
  • RQ2ES による損失関数の進化は、未知または分布外のタスクへ一般化するポリシーを生むか?
  • RQ3EPG 損失はエージェントの履歴をどのように活用して、テスト時の報酬に依存せずに高速適応と探索を可能にするのか?
  • RQ4学習された損失によって生じる勾配と従来の方策勾配目的との関係は何か?

主な発見

  • EPG はいくつかのランダム化された連続制御タスクで、既製の方策勾配法よりもエージェントの学習を高速化する。
  • 学習された損失 Lφ は分布外のテスト時タスクへ一般化でき、他のメタ学習法とは質的に異なる挙動を示す。
  • メモリ機構と時間的畳込みを含めることで、損失がエージェントの履歴を利用して内部ループ更新時の指針を向上させる。
  • 学習された損失を用いたテスト時訓練は報酬信号を必要とせず、訓練タスク分布内で高い最終性能を達成できる。
  • 損失と共にポリシー初期化を進化させる(EPG+I)は、標準的なベースラインと比較して、時には有利な学習ダイナミクスを生む。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。