Skip to main content
QUICK REVIEW

[논문 리뷰] Distributed Distributional Deterministic Policy Gradients

Gabriel Barth-Maron, Matthew W. Hoffman|arXiv (Cornell University)|2018. 04. 23.
Reinforcement Learning in Robotics참고 문헌 20인용 수 283
한 줄 요약

본 논문은 분산 오프폴리시 액터-크리틱 알고리즘인 D4PG를 소개한다. 이는 분포형 평가자(distributional critic)와 N-스텝 반환을 가지며, 다양한 연속 제어 태스크에서 최첨단 성능을 달성한다.

ABSTRACT

This work adopts the very successful distributional perspective on reinforcement learning and adapts it to the continuous control setting. We combine this within a distributed framework for off-policy learning in order to develop what we call the Distributed Distributional Deep Deterministic Policy Gradient algorithm, D4PG. We also combine this technique with a number of additional, simple improvements such as the use of $N$-step returns and prioritized experience replay. Experimentally we examine the contribution of each of these individual components, and show how they interact, as well as their combined contributions. Our results show that across a wide variety of simple control tasks, difficult manipulation tasks, and a set of hard obstacle-based locomotion tasks the D4PG algorithm achieves state of the art performance.

연구 동기 및 목표

  • 연속 제어 설정에서 비평가에 대한 분포형 관점을 채택한다.
  • 데이터 수집 속도를 높이기 위해 분산된 오프폴리시 학습 프레임워크를 개발한다.
  • 학습 향상을 위해 N-스텝 반환과 우선순위 경험 재생을 통합한다.
  • 구성요소를 체계적으로 분석하여 기여와 상호 작용을 이해한다.
  • 제어, 조작, 파쿠르 태스크에서 최첨단 성능을 입증한다.

제안 방법

  • 반환 불확실성을 모델링하기 위해 분포형 비평가(카테고리 분포)를 사용한다.
  • 분포형 벨만 업데이트와 actor-critic 그래디언트를 사용하도록 DDPG를 확장한다.
  • 분포형 업데이트에 N-스텝 반환을 포함한다.
  • 경험 수집을 K개의 병렬 액터에 분산시켜 공유 재생 테이블에 기록한다.
  • 분산 설정에서 중요 샘플링이 적용된 우선순위 경험 재생을 적용한다.
  • ApeX 프레임워크를 활용하여 병렬 액터와 재생 기반 학습을 관리한다.

실험 결과

연구 질문

  • RQ1연속 제어에서 분포형 비평가가 학습 안정성과 성능에 어떤 영향을 미치는가?
  • RQ2분포형 업데이트를 분산 액터, N-스텝 반환, 우선순위 재생과 결합했을 때의 효과는 무엇인가?
  • RQ3표준 제어, 조작, 파쿠르 태스크 전반에서 어떤 구성요소들이 성능 향상에 가장 크게 기여하는가?
  • RQ4분포형 업데이트와 분산 데이터 수집이 존재하는 상황에서 우선순위 재생이 이점을 주는가?

주요 결과

  • 분포형 업데이트는 성능을 향상시키며, 특히 휴머노이드(humanoid) 및 조작(manipulation) 도메인과 같은 어려운 태스크에서 두드러진다.
  • N-스텝 반환은 제안된 개선 중 상대적으로 가장 큰 이득을 제공한다.
  • 전체 D4PG 알고리즘은 표준 제어, 조작, 파쿠르 태스크에서 최첨단 성능을 달성한다.
  • 우선순위 경험 재생은 D4PG에 대해 제한된 이점을 제공하며 때로는 불필요할 수 있다.
  • 언롤 길이 N=5가 일관되게 N=1보다 더 나은 성능을 보이며, 특정 태스크에서 N=1은 다소 불안정하다.
  • 분산 액터와 공유 재생 테이블은 실제 실행 시간(wall-clock) 훈련 시간을 상당히 줄인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.