QUICK REVIEW

[논문 리뷰] Scalable trust-region method for deep reinforcement learning using Kronecker-factored approximation

Yuhuai Wu, Elman Mansimov|arXiv (Cornell University)|2017. 08. 17.

Reinforcement Learning in Robotics참고 문헌 22인용 수 470

한 줄 요약

ACKTR은 신뢰 영역 자연 경사를 사용한 크로나커 팩-근사 곡률(Kronecker-factored)으로 actor-critic 방법에 적용하여 Atari와 MuJoCo에서 샘플 효율성을 2-3배 개선하고 원시 픽셀 입력으로부터의 학습을 가능하게 한다.

ABSTRACT

In this work, we propose to apply trust region optimization to deep reinforcement learning using a recently proposed Kronecker-factored approximation to the curvature. We extend the framework of natural policy gradient and propose to optimize both the actor and the critic using Kronecker-factored approximate curvature (K-FAC) with trust region; hence we call our method Actor Critic using Kronecker-Factored Trust Region (ACKTR). To the best of our knowledge, this is the first scalable trust region natural gradient method for actor-critic methods. It is also a method that learns non-trivial tasks in continuous control as well as discrete control policies directly from raw pixel inputs. We tested our approach across discrete domains in Atari games as well as continuous domains in the MuJoCo environment. With the proposed methods, we are able to achieve higher rewards and a 2- to 3-fold improvement in sample efficiency on average, compared to previous state-of-the-art on-policy actor-critic methods. Code is available at https://github.com/openai/baselines

연구 동기 및 목표

표준 SGD 기반 업데이트를 넘어서 딥 강화 학습의 샘플 효율성을 개선해야 한다.
대형 actor-critic 모델에 적합한 확장 가능한 자연 기울기 방법을 개발한다.
Kronecker-factored 곡률을 확장하여 actor와 critic를 함께 최적화한다.
이산 및 연속 제어 작업에서 원시 픽셀 입력으로부터의 학습을 직접 가능하게 한다.

제안 방법

Fisher 행렬을 효율적으로 역전하기 위해 Kronecker-factored 근사 곡률(K-FAC)을 사용하여 자연 경사 업데이트를 수행한다.
신뢰 영역 제약을 갖는 자연 경사를 actor와 critic 모두에 적용한다(critic의 경우 Gauss-Newton).
필요에 따라 actor-critic용 공동(또는 공유 가능) 아키텍처를 구성하고 샘플 출력은 필요할 때 독립적으로 생성한다.
계산을 줄이기 위해 인수 분해된 Tikhonov 댐핑과 비동기 통계/역행렬을 도입한다.
업데이트에서 KL 발산을 제한하기 위해 신뢰 영역 형식을 사용하여 스텝 크기를 조정한다.

실험 결과

연구 질문

RQ1ACKTR가 샘플 효율성과 계산 효율성 측면에서 최첨단 on-policy 방법 및 2차 baselines와 어떻게 비교되는가?
RQ2Actor와 critic 모두에 자연 경사 업데이트를 적용하는 것이 안정성과 성능에 미치는 영향은?
RQ3ACKTR가 이산 및 연속 제어에서 배치 크기 및 입력 모듈로티(픽셀 입력 포함)에 따라 어떻게 확장되는가?
RQ4critic 최적화를 위한 어떤 노름(norm)과 댐핑(damping) 전략이 학습을 가장 안정시키고 샘플 효율성을 개선하는가?

주요 결과

ACKTR은 Atari와 MuJoCo 벤치마크에서 A2C 및 TRPO에 비해 샘플 효율성과 최종 성능을 크게 향상시킨다.
Actor와 critic를 모두 자연 경사 업데이트로 최적화하면 이전 방법으로 달성할 수 없던 확장 가능한 성능 향상을 얻을 수 있다.
critic에 Gauss-Newton 기반 노름을 사용하는 것이 유클리드 노름 업데이트와 비교하여 샘플 효율성 및 학습 안정성에서 현저한 이점을 제공한다.
ACKTR은 SGD 기반 방법에 가까운 계산 비용을 유지하며 업데이트당 비용이 다소 높을 뿐이다.
ACKTR은 연속 제어 작업에서 픽셀 입력으로부터의 학습에서도 강력한 성능을 보이며 원시 픽셀 관측의 경쟁 결과를 포함한다.
더 큰 배치 크기가 1차 방법보다 ACKTR에 더 큰 이점을 주며, 분산 환경에서 상당한 속도 증가 가능성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.