QUICK REVIEW

[論文レビュー] Evolution Strategies as a Scalable Alternative to Reinforcement Learning

Tim Salimans, Jonathan Ho|arXiv (Cornell University)|Mar 10, 2017

Reinforcement Learning in Robotics参考文献 37被引用数 1,015

ひとこと要約

本論文は、Evolution Strategies (ES) が MuJoCo および Atari のタスク向けのニューラルネットワーク方策を競争力をもって訓練でき、数千の CPU でほぼ線形にスケールし、フレームスキップや長い horizon に対しても backpropagation や価値関数近似なしで頑健性を示すことを実証している。

ABSTRACT

We explore the use of Evolution Strategies (ES), a class of black box optimization algorithms, as an alternative to popular MDP-based RL techniques such as Q-learning and Policy Gradients. Experiments on MuJoCo and Atari show that ES is a viable solution strategy that scales extremely well with the number of CPUs available: By using a novel communication strategy based on common random numbers, our ES implementation only needs to communicate scalars, making it possible to scale to over a thousand parallel workers. This allows us to solve 3D humanoid walking in 10 minutes and obtain competitive results on most Atari games after one hour of training. In addition, we highlight several advantages of ES as a black box optimization technique: it is invariant to action frequency and delayed rewards, tolerant of extremely long horizons, and does not need temporal discounting or value function approximation.

研究の動機と目的

ES が Q-learning や policy gradients のような従来の RL 手法の実用的な代替となり得るかを調査する。
分散ハードウェア上での ES のスケーラビリティと通信効率を評価する。
MuJoCo および Atari タスクにおける、最先端の RL のベースラインと比較した ES のデータ効率と性能を評価する。
ネットワークのパラメータ化やアクション/パラメータのスムージングが ES の性能に与える影響を探る。

提案手法

ポリシーのパラメータのガウス摂動を伴う自然進化戦略として ES を定式化する。
ψ に関する勾配を介して θ を平均パラメータとして Eθ∼pψ[F(θ)] を最大化するスコア関数推定器を用いる。
perturbations を同期させるために共通乱数を用いた並列・低帯域幅 ES (Algorithm 2) を実装する。
分散削減技術（反対対称サンプリング、適合度整形）およびウェイト減衰を適用する。
探索と性能に対する仮想バッチ正規化とアクション離散化の影響を調査する。

実験結果

リサーチクエスチョン

RQ1MuJoCo, Atari などの難易度の高い制御タスクにおいて、ES は勾配ベースの RL 手法と同等かそれを超えることができるか？
RQ2並列ワーカー数や分散ハードウェアの増加に対して ES はどれほどスケールするか？
RQ3ネットワークのパラメータ化とスムージングが ES の有効性と探索に果たす役割は何か？
RQ4割引や価値関数近似を用いず、遅延・フレームスキップ・長期的なタスクに対して ES は頑健か？

主な発見

環境	25%	50%	75%	100%
HalfCheetah	0.15	0.49	0.42	0.58
Hopper	0.53	3.64	6.05	6.94
InvertedDoublePendulum	0.46	0.48	0.49	1.23
InvertedPendulum	0.28	0.52	0.78	0.88
Swimmer	0.56	0.47	0.53	0.30
Walker2d	0.41	5.69	8.02	7.88

仮想バッチ正規化や他の再パラメータ化を用いる ES は、MuJoCo および Atari のタスクで強い性能を示す。
1,440 のワーカーを用いて、ES は MuJoCo 3D Humanoid タスクを 10 分未満で解決し、線形スケーラビリティを示した。
多くのゲームで A3C に匹敵する最終的な Atari 性能を達成し、データ量は 3–10 倍だが、全体の計算時間は同様。
TRPO のようなポリシー勾配法よりも、MuJoCo ヒューマノイドでの多様な歩行など、より広範な探索を示した。
固定ハイパーパラメータが Atari と MuJoCo 環境の両方で機能し、ES の頑健性と調整の手間の削減を強調した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。