QUICK REVIEW

[논문 리뷰] Variance Reduction for Policy Gradient with Action-Dependent Factorized Baselines

Cathy Wu, Aravind Rajeswaran|arXiv (Cornell University)|2018. 03. 20.

Reinforcement Learning in Robotics참고 문헌 15인용 수 72

한 줄 요약

편향이 없는 액션 의존 기저값을 정책 그래디언트에 적용하여 분해된 정책의 분산을 줄이고, 이론적 및 실증적 분산 감소를 보여주며 고차원 액션에 scalable하고 POMDP 및 다-agent 설정에 적용 가능함을 제시한다.

ABSTRACT

Policy gradient methods have enjoyed great success in deep reinforcement learning but suffer from high variance of gradient estimates. The high variance problem is particularly exasperated in problems with long horizons or high-dimensional action spaces. To mitigate this issue, we derive a bias-free action-dependent baseline for variance reduction which fully exploits the structural form of the stochastic policy itself and does not make any additional assumptions about the MDP. We demonstrate and quantify the benefit of the action-dependent baseline through both theoretical analysis as well as numerical results, including an analysis of the suboptimality of the optimal state-dependent baseline. The result is a computationally efficient policy gradient algorithm, which scales to high-dimensional control problems, as demonstrated by a synthetic 2000-dimensional target matching task. Our experimental results indicate that action-dependent baselines allow for faster learning on standard reinforcement learning benchmarks and high-dimensional hand manipulation and synthetic tasks. Finally, we show that the general idea of including additional information in baselines for improved variance reduction can be extended to partially observed and multi-agent tasks.

연구 동기 및 목표

정책 그래디언트 추정의 높은 분산, 특히 긴 휴리스나 고차원 액션에서의 문제를 동기부여하고 해결한다.
정책 분해를 활용해 편향이 없고 액션 의존적 기저를 개발하여 분산 감소를 개선한다.
최적의 액션 의존 기저와 상태-만 의존하는 기저의 부분적 최적성을 보이는 이론적 분석을 제공한다.
고차원 제어 과제에 확장 가능한 실용적 기저 및 알고리즘을 제시한다.
부분 관찰 및 다-agent 시나리오에 적용성을 보여준다.

제안 방법

상태가 주어지면 조건부 독립인 분해된 정책 분포에 대해 편향이 없는 액션 의존 기저를 도출한다.
각 액션 요인 i에 대해 분산의 편향 없이 감소시키는 기저 b_i(s_t, a_t^{-i})를 계산하는 방법을 보인다.
(조건부 독립) 가정 하에서 최적의 액션 의존 기저 b_i^*(s_t, a_t^{-i})를 도출한다.
액션 의존 기저와 상태 의존 기저를 비교하고 상태 의존 기저의 부분최적성을 분석한다.
실용적 기저(한정화된 Q, 몬테카를로 추정, 평균-액션 기저)를 제안하고 정책 그래디언트 업데이트에 통합한다.
완전하게 분해된 정책에 대한 알고리즘을 제공하고 일반 정책 및 다-agent/POMDP 설정으로의 확장을 논의한다.

실험 결과

연구 질문

RQ1액션 의존적, 분해된 기저가 상태-만 의존하는 기저를 넘어 정책 그래디언트 추정의 분산을 일관되게 감소시키는가?
RQ2조건부 독립 하에서 최적의 액션 의존 기저의 형태와 이점은 무엇인가?
RQ3실용적 기저(한정화된 Q, 평균-액션, 몬테카를로 추정)가 고차원 액션 공간에서 어떤 성능을 보이는가?
RQ4액션 의존 기저가 부분 관찰 및 다-agent 강화 학습 설정으로 확장되는가?
RQ5전통적 기저와 비교하여 다양한 벤치마크 및 고차원 작업에서 분산 감소 효과가 얼마나 큰가?

주요 결과

액션 의존 기저가 연속 제어 작업 및 고차원 설정에서 상태-만 기저보다 정책 그래디언트 성능을 일관되게 향상시킨다.
최적의 액션 의존 기저 b_i^*(s_t, a_t^{-i})는 각 액션 좌표마다 다르며, 상태-만 기저로 축소되지 않는 편향 없는 분산 감소를 낳을 수 있다.
액션 의존 기저에 의한 분산 감소는 액션 차원성과 함께 증가하며, 합성 고차원 타깃 매칭 과제에서 이를 시연한다.
실용적 기저(한정화된 Q, 평균-액션)는 비교적 적은 계산 오버헤드로 확장 가능하고 분산 감소에 기여한다.
부분 관찰 및 다-agent 과제에의 확장은 추가 기저 정보를 도입함으로써 학습 속도를 높임을 보여준다.
실험 결과는 고차원 손 조작 및 다-agent 커뮤니케이션 과제에서 더 빠른 학습과 학습 속도 향상을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.