QUICK REVIEW

[論文レビュー] Towards Generalization and Simplicity in Continuous Control

Aravind Rajeswaran, Kendall Lowrey|arXiv (Cornell University)|Mar 8, 2017

Reinforcement Learning in Robotics参考文献 18被引用数 26

ひとこと要約

この論文は、単純な線形および径路基底関数（RBF）ポリシーが、標準的な連続制御ベンチマークで最先端の性能を達成できることを示している—深層ニューラルネットワークの結果と同等またはそれを上回り、学習速度が最大20倍速い。訓練中に多様な初期状態分布を用いることで、これらの単純なポリシーはより良い一般化性能を発揮し、大きなオンライン摂動に対しても回復可能となる。これは、頑健な制御には複雑なアーキテクチャが不可欠であるという仮定に疑問を呈する。

ABSTRACT

This work shows that policies with simple linear and RBF parameterizations can be trained to solve a variety of continuous control tasks, including the OpenAI gym benchmarks. The performance of these trained policies are competitive with state of the art results, obtained with more elaborate parameterizations such as fully connected neural networks. Furthermore, existing training and testing scenarios are shown to be very limited and prone to over-fitting, thus giving rise to only trajectory-centric policies. Training with a diverse initial state distribution is shown to produce more global policies with better generalization. This allows for interactive control scenarios where the system recovers from large on-line perturbations; as shown in the supplementary video.

研究の動機と目的

線形およびRBF関数のような単純なポリシーのパラメータ化が、標準的な連続制御ベンチマークで競争力のある性能を達成できるかどうかを調査すること。
通常の狭い初期状態分布を用いて訓練されたポリシーの頑健性を評価すること。このような分布はしばしば脆く、軌道中心の行動を引き起こす。
多様な初期状態で訓練することで、一般化性能が向上し、大きなオンライン摂動からの回復能力が得られるかどうかを評価すること。
深層ニューラルネットワークが複雑な制御タスクを解くために不可欠であるという一般的な仮定に反論し、オッカムの剃刀の原則に従い、より単純な代替手法を提唱すること。
標準的なエピソード報酬指標を超えた頑健性をより的確に評価できる、ポリシーのインタラクティブ評価を新たな情報豊富なベンチマークとして提唱すること。

提案手法

サンプル効率と収束性を向上させるために、共役勾配（CG）による前処理を施した自然ポリシー勾配（NPG）を用いてポリシーを訓練する。
ポリシーに線形およびRBFパラメータ化を用い、非線形性を近似するためにランダムフーリエ特徴量を実装する。
初期状態を広い分布からサンプリングすることで、ベンチマークタスクの「グローバル」バージョンを導入し、ポリシーが特定の軌道を超えて一般化することを強制する。
推論中に大きなオンライン摂動を注入することで、頑健性と回復能力を評価するインタラクティブテストを適用する。
同一の訓練および評価プロトコルを用いて、信頼領域ポリシー最適化（TRPO）で訓練された深層ニューラルネットワークポリシーと性能を比較する。
平均報酬目的関数を推定するために有限時間ホライズンのロールアウトを用い、価値関数およびアドバンテージ関数はブートストラップ法で計算する。

実験結果

リサーチクエスチョン

RQ1単純な線形およびRBFポリシーは、標準的な連続制御ベンチマークで深層ニューラルネットワークと同等の性能を達成できるか？
RQ2狭い初期状態分布と多様な初期状態分布の両方で訓練した場合、ポリシーの一般化性能と頑健性にどのような影響があるか？
RQ3複雑なポリシーのアーキテクチャがベンチマーク制御タスクを解くために必須であるのか、それとも単純な形式で十分なのか？
RQ4インタラクティブな摂動テストは、標準的なエピソード報酬指標では捉えきれない頑健性の制限を明らかにできるか？
RQ5深層強化学習における連続制御の文脈で、ポリシーの複雑さ、学習速度、一般化性能の間にはどのようなトレードオフがあるか？

主な発見

線形およびRBFポリシーは、Walker2D や Hopper などのOpenAI Gym連続制御ベンチマークで、深層ニューラルネットワークと同等の性能を達成し、最先端の性能を発揮した。
多様な初期状態で訓練された単純なポリシーは、一般化性能が著しく向上し、大きなオンライン摂動に対しても回復可能である。一方、狭い初期状態分布で訓練されたポリシーはそのような能力を欠いている。
多様な初期状態で訓練することで、ポリシーは特定の軌道に限定されず、広範な初期設定に対してグローバルに機能可能となる。
線形ポリシーは、パrameter数が桁違いに少ないため、深層ネットワークと比べて最大20倍速く学習が可能であり、性能を損なわずに済む。
訓練条件をより多様にした場合、多層ニューラルネットワークが単純なパラメータ化を上回る明確な証拠は得られなかった。
インタラクティブテストにより、標準的な訓練プロトコルでは脆いポリシーが得られ、摂動に失敗することが明らかになった。これは、現在の評価パラダイムに深刻な限界があることを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。