QUICK REVIEW

[論文レビュー] What Matters In On-Policy Reinforcement Learning? A Large-Scale Empirical Study

Marcin Andrychowicz, Anton Raichuk|arXiv (Cornell University)|Jun 10, 2020

Reinforcement Learning in Robotics参考文献 26被引用数 104

ひとこと要約

この論文は、統一的なオンポリシーRLフレームワークにおける50を超える設計選択の大規模な実証研究を実施し、5つの連続制御環境で250,000を超えるエージェントを訓練して、実践的な推奨を特定した。

ABSTRACT

In recent years, on-policy reinforcement learning (RL) has been successfully applied to many different continuous control tasks. While RL algorithms are often conceptually simple, their state-of-the-art implementations take numerous low- and high-level design decisions that strongly affect the performance of the resulting agents. Those choices are usually not extensively discussed in the literature, leading to discrepancy between published descriptions of algorithms and their implementations. This makes it hard to attribute progress in RL and slows down overall progress [Engstrom'20]. As a step towards filling that gap, we implement >50 such ``choices'' in a unified on-policy RL framework, allowing us to investigate their impact in a large-scale empirical study. We train over 250'000 agents in five continuous control environments of different complexity and provide insights and practical recommendations for on-policy training of RL agents.

研究の動機と目的

低レベルおよび高レベルの実装選択がオンポリシーRLの性能にどのように影響するかを調査する。
統一されたPPOベースのフレームワーク内で、>50の設定可能なオプションの効果を定量化する。
ハイパーパラメータ、アーキテクチャ、訓練設定に関する実務者向けの実用的なガイドラインを提供する。

提案手法

PPOを基盤とし、設定オプションとして公開された選択肢を備える高度に構成可能なオンポリシーエージェントを構築する。
5つの連続制御環境にわたり25万以上のエージェントを訓練して性能を評価する。
設定グループ全体の95パーセンタイル性能を分析し、最高性能の設定を検討することで各選択肢を評価する。
関連する選択肢間の相互作用を考慮する2段階分析を用い、頑健な結論を確保する。

実験結果

リサーチクエスチョン

RQ1連続制御タスクにおいて、どの低レベルおよび高レベルの設計選択がオンポリシーRLの性能に最も影響を与えるか？
RQ2方策損失、ネットワークアーキテクチャ、正規化、アドバンテージ推定、訓練設定、タイムステップの取り扱い、オプティマイザ、正則化に関連する選択が学習速度と最終性能にどう影響するか？
RQ3現実の設定でオンポリシーRLを実装する実務者に向けて、どのような実用的な推奨事項が導き出せるか？

主な発見

PPOのポリシー損失はほとんどの環境で他の代替より一般的に優れており、クリッピング閾値は約0.25が堅実な出発点である。
価値ネットワークとポリシーネットワークを分離するとしばしば性能が向上し、アーキテクチャの幅と活性化の選択（tanh）が結果に大きく影響する；初期の行動分布の初期化は訓練速度に強い影響を与える。
入力正規化は重要であり、環境によっては値関数の正規化が性能に劇的な影響を与えることがある。勾配クリッピングは控えめな向上をもたらす。
GAEとV-trace for advantage estimationはN-stepを上回る；PPO風の値損失クリッピングとHuber損失は広く有益ではない。
データ収集戦略が重要：経験を複数回繰り返し、データパスごとに利得を再計算することでサンプル効率が向上する。より多くの parallel environments は一部のタスクで悪化させる可能性があるが、リソースが許す場合は wall-clock時間を短縮できる。
Adamオプティマイザとモーメント、調整された学習率は堅牢なデフォルトである。エントロピーやKLペナルティによる正則化は限られた効果、または環境に依存した効果を持つ。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。