QUICK REVIEW

[논문 리뷰] On the Relationship Between the OpenAI Evolution Strategy and Stochastic Gradient Descent

Xingwen Zhang, Jeff Clune|arXiv (Cornell University)|2017. 12. 18.

Reinforcement Learning in Robotics참고 문헌 2인용 수 38

한 줄 요약

이 논문은 MNIST 기반 실험을 통해 OpenAI의 진화 전략(ES)과 확률적 경사 하강법(SGD) 간의 관계를 조사하며, ES가 MNIST에서 99%의 테스트 정확도를 달성해 이전의 진화적 방법을 뛰어넘음을 입증한다. ES가 SGD 경사와 강한 상관관계를 보임을 보이며, 다양한 개체 수에서의 ES 성능을 예측할 수 있는 SGD 기반의 대체 모델을 제안한다.

ABSTRACT

Because stochastic gradient descent (SGD) has shown promise optimizing neural networks with millions of parameters and few if any alternatives are known to exist, it has moved to the heart of leading approaches to reinforcement learning (RL). For that reason, the recent result from OpenAI showing that a particular kind of evolution strategy (ES) can rival the performance of SGD-based deep RL methods with large neural networks provoked surprise. This result is difficult to interpret in part because of the lingering ambiguity on how ES actually relates to SGD. The aim of this paper is to significantly reduce this ambiguity through a series of MNIST-based experiments designed to uncover their relationship. As a simple supervised problem without domain noise (unlike in most RL), MNIST makes it possible (1) to measure the correlation between gradients computed by ES and SGD and (2) then to develop an SGD-based proxy that accurately predicts the performance of different ES population sizes. These innovations give a new level of insight into the real capabilities of ES, and lead also to some unconventional means for applying ES to supervised problems that shed further light on its differences from SGD. Incorporating these lessons, the paper concludes by demonstrating that ES can achieve 99% accuracy on MNIST, a number higher than any previously published result for any evolutionary method. While not by any means suggesting that ES should substitute for SGD in supervised learning, the suite of experiments herein enables more informed decisions on the application of ES within RL and other paradigms.

연구 동기 및 목표

딥 강화 학습에서 성공을 거둔 ES와 SGD 간의 관계가 모호한 상황에서, 이 둘 간의 관계를 명확히 하기 위해.
저소음의 지도 학습 환경에서 경사 상관관계를 측정함으로써, ES가 유한차분 경사 근사치로 간주되는지, 아니면 별개의 최적화 철학을 따르는지 탐구하기 위해.
다양한 ES 개체 수에서의 성능을 정확하게 예측할 수 있는 SGD 기반의 대체 모델을 개발하기 위해.
지도 학습에서 ES의 비정통적인 응용을 탐색함으로써, SGD와의 차이점을 부각하고 그 기초적인 능력을 드러내기 위해.
ES가 고차원적, 깊은 신경망 환경에서 기존의 진화적 방법보다도 최고 성능을 낼 수 있음을 입증함으로써, 그 한계에 대한 기존의 가정을 도전하기 위해.

제안 방법

도메인 노이즈를 최소화하고 최적화 역학을 고립시키기 위해 지도 학습 설정을 사용한 제어된 MNIST 실험을 수행하기 위해.
동일한 네트워크 가중치에서 ES를 통해 계산된 경사와 표준 역전파(Backpropagation, SGD)로 계산된 경사 간의 상관관계를 측정하기 위해.
편미분 집합에서 기대 경사를 추정함으로써, ES 성능을 예측하는 SGD 기반의 대체 모델을 구축하기 위해.
대체 모델을 사용해 전체 ES 시험을 실행하지 않고도 최적의 개체 수를 예측하고, 다양한 설정에서 정확도를 검증하기 위해.
제한된 편미분과 미니배치 없이 사용하는 등, 지도 학습에서 ES를 비정통적인 방식으로 적용하여, SGD와의 행동 차이를 분석하기 위해.
편미분 분산(σ)이 ES 성능에 미치는 영향과 유한차분 근사치에서의 이탈 정도를 분석하며, 특히 노이즈가 많은 환경에서의 영향을 고려하기 위해.

실험 결과

연구 질문

RQ1저소음의 지도 학습 환경에서, OpenAI의 ES가 추정하는 경사가 역전파(SGD)로 계산된 진짜 경사와 얼마나 밀접하게 상관되는가?
RQ2SGD 기반의 대체 모델이 MNIST에서 다양한 개체 수에서의 ES 성능을 정확하게 예측할 수 있는가?
RQ3편미분 분산(σ)을 변화시킬 때, ES가 유한차분 경사 근사치와 근본적으로 어떻게 다를 수 있는가?
RQ4ES는 어느 정도까지 지도 학습에 효과적으로 적용될 수 있으며, 이는 강화 학습에서의 행동에 대한 통찰을 제공하는가?
RQ5특히 미니배치 없이 사용할 경우, ES의 학습 곡선의 매끄러움은 SGD와 비교해 어떻게 다른가? 이는 RL 응용에 어떤 함의를 갖는가?

주요 결과

MNIST 환경에서 ES가 추정한 경사가 역전파(SGD)로 계산된 진짜 경사와 강한 상관관계를 보이며, 이는 ES가 의미 있는 경사 하강 방향을 근사하고 있음을 시사한다.
다양한 ES 개체 수에서의 성능을 정확하게 예측할 수 있는 SGD 기반의 대체 모델이 성공적으로 개발되었으며, 이는 전체 ES 시험을 실행하지 않고도 성능를 추정할 수 있게 해준다.
고정된 편미분 분산(σ)을 가진 ES는 σ가 증가함에 따라 유한차분 근사치에서 벗어나며, 이는 ES가 가중치 벡터뿐 아니라 편미분의 분포까지 최적화하고 있음을 시사한다.
미니배치 없이 적용한 경우, ES는 SGD보다 훨씬 더 매끄러운 학습 곡선을 보였으며, 이는 안정성과 노이즈에 대한 내성에서 잠재적인 이점이 있음을 시사한다.
ES는 MNIST에서 99%의 테스트 정확도를 달성했으며, 이는 이전에 발표된 모든 진화적 방법보다 높은 결과로, 대규모 고차원 신경망에서의 성능 가능성을 입증한다.
결과는 ES가 단순한 경사 근사치가 아니라, 특히 대규모 병렬 처리와 철저한 하이퍼파rameter 튜닝과 결합했을 때 고유한 성질을 지닌 별개의 최적화 철학임을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.