QUICK REVIEW

[論文レビュー] On the Relationship Between the OpenAI Evolution Strategy and Stochastic Gradient Descent

Xingwen Zhang, Jeff Clune|arXiv (Cornell University)|Dec 18, 2017

Reinforcement Learning in Robotics参考文献 2被引用数 38

ひとこと要約

本稿は、MNISTを用いた実験を通じて、OpenAIの進化戦略（ES）と確率的勾配降下法（SGD）の関係を調査し、ESがMNISTで99％のテスト精度に達することを示している。これは、従来の進化的手法を上回るものである。ESとSGDの勾配の相関が強く、さまざまな集団サイズにおけるESの性能を予測するSGDベースの代理モデルを導入している。

ABSTRACT

Because stochastic gradient descent (SGD) has shown promise optimizing neural networks with millions of parameters and few if any alternatives are known to exist, it has moved to the heart of leading approaches to reinforcement learning (RL). For that reason, the recent result from OpenAI showing that a particular kind of evolution strategy (ES) can rival the performance of SGD-based deep RL methods with large neural networks provoked surprise. This result is difficult to interpret in part because of the lingering ambiguity on how ES actually relates to SGD. The aim of this paper is to significantly reduce this ambiguity through a series of MNIST-based experiments designed to uncover their relationship. As a simple supervised problem without domain noise (unlike in most RL), MNIST makes it possible (1) to measure the correlation between gradients computed by ES and SGD and (2) then to develop an SGD-based proxy that accurately predicts the performance of different ES population sizes. These innovations give a new level of insight into the real capabilities of ES, and lead also to some unconventional means for applying ES to supervised problems that shed further light on its differences from SGD. Incorporating these lessons, the paper concludes by demonstrating that ES can achieve 99% accuracy on MNIST, a number higher than any previously published result for any evolutionary method. While not by any means suggesting that ES should substitute for SGD in supervised learning, the suite of experiments herein enables more informed decisions on the application of ES within RL and other paradigms.

研究の動機と目的

深層強化学習における成功を示すESとSGDの関係が曖昧なまま残っているにもかかわらず、その関係を明確にすること。
低ノイズで監視学習の設定において、ESが有限差分勾配近似器としての振る舞いをするのか、それとも独立した最適化パラダイムとしての振る舞いをするのかを、勾配相関を測定することで調査すること。
MNISTにおけるさまざまなES集団サイズの性能を正確に予測できるSGDベースの代理モデルを開発すること。
ESを監視学習に非常な応用として適用し、SGDとはどのように異なるかを明らかにするとともに、その背後にある能力を明らかにすること。
ESが高次元で深いネットワークにおいても、進化的手法としての最先端の性能を達成できることを示し、その限界に関する仮説に挑戦すること。

提案手法

ドメインノイズを最小限に抑えた監視学習設定を用いた制御されたMNIST実験により、最適化ダイナミクスを分離する。
同じネットワーク重みに対して、ESで計算された勾配と、標準的な誤差逆伝播（SGD）で計算された勾配との相関を測定する。
摂動集団からの期待勾配を推定することで、ESの性能を予測するSGDベースの代理モデルを構築する。
代理モデルを用いて、完全なES実行を実施せずに、さまざまな設定における最適な集団サイズを予測し、その正確性を検証する。
限定的な摂動とミニバッチなしの方法を用いて、ESを監視学習に非常な応用として適用し、SGDとの比較による挙動分析を行う。
摂動の分散（σ）がESの性能に与える影響と、特にノイズの多い環境における有限差分近似からの逸脱を分析する。

実験結果

リサーチクエスチョン

RQ1低ノイズで監視学習の設定において、OpenAIのESが推定する勾配は、誤差逆伝播（SGD）で計算された真の勾配とどれほど相関しているか？
RQ2SGDベースの代理モデルは、MNISTにおけるさまざまな集団サイズのESの性能を正確に予測できるか？
RQ3摂動分散（σ）を変化させた場合、ESは有限差分勾配近似器とは本質的にどのように異なるか？
RQ4ESはどの程度効果的に監視学習に応用できるか。また、これは強化学習における挙動に関する何らかの洞察を提供するか？
RQ5特にミニバッチなしの設定において、ESの学習曲線の滑らかさはSGDと比べてどうか。これはRL応用にどのような含意を持つのか？

主な発見

MNIST設定において、ESが推定する勾配は、誤差逆伝播（SGD）で計算された真の勾配と強く相関しており、ESが意味のある勾配降下方向を近似していることを示している。
さまざまなES集団サイズの性能を正確に予測できるSGDベースの代理モデルが成功裏に開発され、完全なES実行を実施せずに性能推定が可能になった。
固定された摂動分散（σ）を用いたESは、σが増加するにつれて有限差分近似器から逸脱する。これは、ESが重みベクトルだけでなく摂動の分布そのものも最適化している可能性を示唆している。
ミニバッチなしのアプローチを用いたESは、SGDよりも著しく滑らかな学習曲線を示し、安定性とノイズ耐性に優れる可能性があることを示している。
ESはMNISTで99％のテスト精度に到達した。これは、進化的手法としてこれまでに発表された中で最高の結果であり、大規模で深いネットワークにおける能力を示している。
結果から、ESは単なる勾配近似器ではなく、特に大規模並列処理と適切なハイパーパramータチューニングを組み合わせた場合に、独自の特性を示す独立した最適化パラダイムであると考えられる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。