QUICK REVIEW

[논문 리뷰] Stein Variational Policy Gradient

Yang Liu, Prajit Ramachandran|arXiv (Cornell University)|2017. 04. 07.

Reinforcement Learning in Robotics참고 문헌 25인용 수 65

한 줄 요약

SVPG는 정책 그래디언트와 Stein 변분 그래디언트를 결합해 다양하고 높은 성능의 정책 집합을 유지, 연속 제어 작업에서 표준 REINFORCE 및 A2C보다 데이터 효율성과 강건성을 향상시킴.

ABSTRACT

Policy gradient methods have been successfully applied to many complex reinforcement learning problems. However, policy gradient methods suffer from high variance, slow convergence, and inefficient exploration. In this work, we introduce a maximum entropy policy optimization framework which explicitly encourages parameter exploration, and show that this framework can be reduced to a Bayesian inference problem. We then propose a novel Stein variational policy gradient method (SVPG) which combines existing policy gradient methods and a repulsive functional to generate a set of diverse but well-behaved policies. SVPG is robust to initialization and can easily be implemented in a parallel manner. On continuous control problems, we find that implementing SVPG on top of REINFORCE and advantage actor-critic algorithms improves both average return and data efficiency.

연구 동기 및 목표

강화학에서 더 강건하고 데이터 효율적인 정책 최적화의 필요성 제시.
탐색을 장려하기 위한 정책 매개변수에 대한 최대 엔트로피 프레임워크 제안.
SVPG를 도입하여 그래디언트 정보를 함께 활용하고 입자를 분산시켜 다양성을 확보.
연속 제어 벤치마크에서 SVPG의 성능 및 강건성 개선 시연.

제안 방법

사 prior q0(θ)를 갖는 분포 q(θ)로 정책 매개변수를 모델링하여 E_q[J(θ)] + α H(q)를 최대화.
포스트 형식 q(θ) ∝ exp(J(θ)/α) q0(θ) 유도하고 α를 온도 제어로 해석.
Stein Variational Gradient Descent (SVGD)를 적용하여 θ_i의 입자 집합을 반복적으로 이동시켜 q(θ)를 근사.
로그 q의 기울기와 반발 커널 항을 결합한 SVGD 업데이트를 사용하여 다양성을 유지: φ*(θ) = E_θ~ρ[∇log q(θ) k(θ,·) + ∇_θ k(θ,·)].
SVPG를 ∇log q를 ∇_θ[(1/α)J(θ) + log q0(θ)]로 대체해 SVGD 업데이트를 통해 결합된 정책-그래디언트 및 반발 항을 얻음.
탐색과 이용의 균형을 위한 α의 어닐링을 제공.
REINFORCE 및 A2C 위에서 SVPG를 시연하여 연속 제어 과제에서 데이터 효율성과 강건성 향상.

실험 결과

연구 질문

RQ1정책 매개변수의 분포적이고 엔트로피 정규화된 관점이 탐색 및 학습 안정성을 향상시킬 수 있는가?
RQ2SVGD 기반의 정책 매개변수 최적화가 단일 정책 업데이트와 비교해 다양하면서도 높은 성능의 정책을 제공하는가?
RQ3연속 제어 벤치마크에서 표준 정책 그래디언트 방법(REINFORCE, A2C)과 결합했을 때 SVPG의 성능은 어떠한가?
RQ4SVPG에서 온도 매개변수 α가 탐색-이용 트레이드오프에 어떤 영향을 미치는가?

주요 결과

작업	A2C 합동 최고 수익	A2C 합동 에피소드	A2C 독립 최고 수익	A2C 독립 에피소드	SVPG 최고 수익	SVPG 에피소드
Cartpole Swing Up	308.71	189	419.62	474	436.84	171
Double Pendulum	-938.73	46	-256.64	638	-244.85	199

연속 제어 과제에서 REINFORCE 및 A2C 위에 SVPG를 추가하면 평균 수익과 데이터 효율성이 향상된다.
SVPG는 서로 다른 초기화에 대해 견고한 성능을 보이며 공동 업데이트보다 분산이 작고 독립 업데이트와의 다양성도 경쟁력 있다.
SVPG가 상태 방문 패턴이 다양한 여러 강한 정책을 발견해 매개변수 공간 탐색이 효과적임을 시사한다.
중간 수준의 α가 탐색과 이용의 균형을 맞추고 너무 높거나 낮은 온도보다 더 나은 성능을 지지한다.
SVPG의 병렬 비모수적 입자 업데이트는 기존 정책 최적화 프레임워크와의 확장 가능한 통합을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.