QUICK REVIEW

[논문 리뷰] Learning Self-Imitating Diverse Policies

Tanmay Gangwani, Qiang Liu|arXiv (Cornell University)|2018. 05. 25.

Reinforcement Learning in Robotics참고 문헌 49인용 수 26

한 줄 요약

이 논문은 자기 생성된 고수익 경로에서의 상태-행동 방문 빈도와 정책의 상태-행동 방문 빈도 간의 젠센-쇼너 클라이브(Jensen-Shannon divergence)를 최소화하여 희박하고 에피소딕한 보상 환경에서 딥 강화학습을 향상시키는 자기모방 학습 알고리즘을 제안한다. 이 방법은 자기 생성된 시범 데이터로부터 조밀한 보상을 형성하여 효율적인 신용 할당을 가능하게 하며, 스틸 변분 정책 기울기(Stein variational policy gradient)와 JS 커널을 통합하여 다양한 정책을 학습함으로써, 희박한 보상 환경에서의 도전적인 MuJoCo 이동 작업에서 기존의 기준보다 뚜렷이 뛰어난 성능을 달성한다.

ABSTRACT

The success of popular algorithms for deep reinforcement learning, such as policy-gradients and Q-learning, relies heavily on the availability of an informative reward signal at each timestep of the sequential decision-making process. When rewards are only sparsely available during an episode, or a rewarding feedback is provided only after episode termination, these algorithms perform sub-optimally due to the difficultly in credit assignment. Alternatively, trajectory-based policy optimization methods, such as cross-entropy method and evolution strategies, do not require per-timestep rewards, but have been found to suffer from high sample complexity by completing forgoing the temporal nature of the problem. Improving the efficiency of RL algorithms in real-world problems with sparse or episodic rewards is therefore a pressing need. In this work, we introduce a self-imitation learning algorithm that exploits and explores well in the sparse and episodic reward settings. We view each policy as a state-action visitation distribution and formulate policy optimization as a divergence minimization problem. We show that with Jensen-Shannon divergence, this divergence minimization problem can be reduced into a policy-gradient algorithm with shaped rewards learned from experience replays. Experimental results indicate that our algorithm works comparable to existing algorithms in environments with dense rewards, and significantly better in environments with sparse and episodic rewards. We then discuss limitations of self-imitation learning, and propose to solve them by using Stein variational policy gradient descent with the Jensen-Shannon kernel to learn multiple diverse policies. We demonstrate its effectiveness on a challenging variant of continuous-control MuJoCo locomotion tasks.

연구 동기 및 목표

보상이 희박하거나 에피소딕한 경우 딥 강화학습에서 낮은 샘플 효율성과 신용 할당 문제를 해결하기 위해.
자기 생성된 고수익 경로를 암묵적인 시범 데이터로 활용하여 희박한 보상 환경에서 정책 기울기 방법의 성능을 향상시키기 위해.
단일 정책 자기모방의 한계를 극복하기 위해 정책 간 다양성을 증진시켜 탐색을 향상시키고 국소 최적점에 갇히는 것을 방지하기 위해.
연속 제어 작업을 위한 확장 가능한, 인구 기반의 방법을 개발하여 자기모방과 다양성 정규화를 통합하기 위해.

제안 방법

현재 정책의 상태-행동 방문 빈도와 고수익 경험 재생 경로의 상태-행동 방문 빈도 간 젠센-쇼너 분산 최소화 문제로 정책 최적화를 공식화한다.
자기 생성된 전문가 경로에서 유도된 조정된 조밀한 보상과 함께, 분산 최소화 문제를 정책 기울기 업데이트로 환원한다.
에이전트가 자신의 과거 고성능 롤아웃을 모방하는 자기모방 메커니즘을 도입하여 내재된 조밀한 지도를 효과적으로 생성한다.
스티븐 변분 정책 기울기(SVPG)에 젠센-쇼너 커널을 사용하여 앙상블 내 여러 정책 간의 다양성을 명시적으로 장려한다.
정책 방문 분포 간의 JS 분산에 기반한 밀림(term)을 도입하여 서로 다른 행동 양상 간의 탐색을 촉진한다.
다중 에이전트 앙상블 환경에서 각 에이전트가 집단의 경험과 다양성을 바탕으로 학습하도록 적용한다.

실험 결과

연구 질문

RQ1자기 생성된 고수익 경로를 사용한 자기모방이 희박한 보상 환경에서 딥 강화학습의 샘플 효율성을 향상시킬 수 있는가?
RQ2형상화된 보상과 함께 자기모방을 사용할 경우, 조밀한 보상 환경과 희박한 보상 환경 모두에서 표준 정책 기울기 방법과 비교해 어떤가?
RQ3정책 공간에서 커널 기반의 밀림 항목을 통해 정책 간 다양성이 효과적으로 유도될 수 있는가?
RQ4자기모방과 다양성 학습의 조합이 어려운 탐색 작업에서 더 빠른 수렴과 향상된 성능을 이끌 수 있는가?

주요 결과

제안된 자기모방 알고리즘이 조밀한 보상 환경에서는 표준 정책 기울기 방법과 유사한 성능을 달성하지만, 희박하고 에피소딕한 환경에서는 그 성능을 뚜렷이 뛰어넘는다.
미로 환경에서 SI-interact-JS는 여러 에이전트가 고보상 초록 영역으로 탐색하고 도달하는 데 성공하는 반면, SI-independent와 PPO-independent 에이전트는 목표를 발견하지 못한다.
SparseHopper와 SparseHalfCheetah 환경에서 SI-interact-JS는 SI-independent가 행동 공간의 노이즈에 의존하기만 하는 것과 달리, 점프와 전진 운동 행동을 훨씬 빨리 발견한다.
SI-interact-JS에서 JS 커널을 사용함으로써 정책 간의 다양성이 뚜렷이 향상되었으며, 정책 쌍 간의 더 높은 JS 분산을 나타내는 더 가벼운 커널 행렬 요소로 확인되었다.
JS 커널 대신 RBF 커널을 사용한 SI-interact-RBF는 성능이 열 劣하므로, JS 커널이 정책 방문 분포 간의 의미 있는 다양성을 촉진하는 데 더 적합함을 시사한다.
PPO-independent 에이전트는 에너지 페널티를 피하기 위해 멈춰서 버티는 등의 국소 최적점에 갇히지만, SI-interact-JS는 활발한 탐색을 통해 이를 피한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.