QUICK REVIEW

[논문 리뷰] Structured Evolution with Compact Architectures for Scalable Policy Optimization

Krzysztof Choromański, Mark Rowland|arXiv (Cornell University)|2018. 04. 06.

Stochastic Gradient Optimization Techniques인용 수 52

한 줄 요약

이 논문은 직교/ Hadamard 기반 탐색과 집적 정책 구조를 이용한 구조화된 진화 전략을 제시하여 derivatives-free 정책 최적화를 확장 가능하게 만들고, 매우 작은 네트워크(약 300 파라미터)로도 빠른 추론을 달성하는 OpenAI Gym 과제에 적용합니다.

ABSTRACT

We present a new method of blackbox optimization via gradient approximation with the use of structured random orthogonal matrices, providing more accurate estimators than baselines and with provable theoretical guarantees. We show that this algorithm can be successfully applied to learn better quality compact policies than those using standard gradient estimation techniques. The compact policies we learn have several advantages over unstructured ones, including faster training algorithms and faster inference. These benefits are important when the policy is deployed on real hardware with limited resources. Further, compact policies provide more scalable architectures for derivative-free optimization (DFO) in high-dimensional spaces. We show that most robotics tasks from the OpenAI Gym can be solved using neural networks with less than 300 parameters, with almost linear time complexity of the inference phase, with up to 13x fewer parameters relative to the Evolution Strategies (ES) algorithm introduced by Salimans et al. (2017). We do not need heuristics such as fitness shaping to learn good quality policies, resulting in a simple and theoretically motivated training mechanism.

연구 동기 및 목표

확률적 또는 블랙박스 환경에서 정책 탐색을 위한 파라미터 최적화의 미분계 없는 접근법에 대한 동기 부여.
직교적이거나 Hadamard 기반의 구조화된 무작위 방향을 사용하여 그래디언트 추정치를 개선합니다.
빠른 학습 및 추론을 가능하게 하기 위해 집합적 아키텍처로 정책 파라미터 차원을 축소합니다.
구현의 확장성과 로봇 공학 벤치마크 및 OpenAI Gym 과제에 대한 적용 가능성을 입증합니다.

제안 방법

목표 F의 Gaussian 스무딩 Fσ(θ)를 형성하고 몬테카를로 그래디언트를 통해 ∇Fσ(θ)를 추정합니다.
기본 ES, 반대 방향 ES, 그리고 순방향 유한 차이 ES 추정기들을 ∇Fσ(θ)와 비교합니다.
구조화된 탐색 도입: (i) 탐색을 위한 Gaussian 직교 방향; (ii) Hadamard-Rademacher 행렬을 이용한 이산 직교 탐색; (iii) 준-몬테카를로 탐색; 이들이 iid 방향에 비해 MSE를 감소시킴을 보입니다.
매개변수를 공유하고 추론 속도를 높이기 위해 Toeplitz(및 관련 저변위) 행렬을 가진 컴팩트 정책 네트워크를 제안합니다.
다수의 작업자와의 확장을 위해 분산 구현을 설명하고 낮은 통신을 유지합니다.
구조화된 탐색이 컴팩트 정책과 함께 기존보다 경쟁력 있거나 우수한 RL 성능을 달성하면서도 훨씬 적은 파라미터를 사용함을 보여줍니다.

실험 결과

연구 질문

RQ1직교 또는 Hadamard 기반 방향을 사용하는 구조화된 탐색이 독립적으로 동일 분포된 Gaussian 방향에 비해 그래디언트 추정 분산을 감소시키나요?
RQ2컴팩트 정책 아키텍처(예: Toeplitz, 저변위 행렬)가 파라미터 수를 크게 줄이면서 정책의 품질을 유지하거나 향상시킬 수 있나요?
RQ3구조화된 탐색 전략은 OpenAI Gym MuJoCo 과제에서 비구조 ES 방식에 비해 학습 속도와 최종 보상 측면에서 어떻게 성능을 보이나요?
RQ4표준 derivatives-free 접근법과 비교했을 때 구조화된 ES 구현의 계산 및 통신 비용은 어떤가요?

주요 결과

구조화된 탐색 방식은 대응하는 반대 iid 추정기보다 평균 제곱 오차를 낮춰 그래디언트 추정을 개선합니다.
직교 및 Hadamard 기반 탐색은 분산을 크게 감소시키고 iid 방향보다 최적화 성능을 향상시킬 수 있습니다.
Toeplitz 또는 관련 구조를 가진 컴팩트 정책은 비구조적 베이스라인에 비해 최대 13배 적은 파라미터로 비슷하거나 더 나은 성능을 달성할 수 있습니다.
대부분의 MuJoCo OpenAI Gym 과제는 300개 이하의 파라미터로 해결 가능하며 추론 시간이 거의 선형입니다.
컴팩트 아키텍처를 갖는 구조화된 그래디언트 추정은 많은 작업자와의 분산 학습을 통해 경쟁력 있는 결과를 달성하고 총 계산 및 통신 부담을 줄일 수 있습니다.
여러 과제에서 구조화된 정책이 비구조화된 정책보다 우수했고, 비구조화된 전체 네트워크가 구조화된 컴팩트 아키텍처를 거의 이기지 못했습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.