Skip to main content
QUICK REVIEW

[논문 리뷰] Off-Policy Policy Gradient with State Distribution Correction

Yao Liu, Adith Swaminathan|arXiv (Cornell University)|2019. 04. 17.
Energy, Environment, and Transportation Policies참고 문헌 27인용 수 46
한 줄 요약

이 논문은 상태 분포 불일치를 고려하는 오프폴리시 정책 그래디언트 방법인 OPPOSD를 소개하며, 수렴 보장과 기저 방법에 비해 실험적 개선을 제공합니다.

ABSTRACT

We study the problem of off-policy policy optimization in Markov decision processes, and develop a novel off-policy policy gradient method. Prior off-policy policy gradient approaches have generally ignored the mismatch between the distribution of states visited under the behavior policy used to collect data, and what would be the distribution of states under the learned policy. Here we build on recent progress for estimating the ratio of the state distributions under behavior and evaluation policies for policy evaluation, and present an off-policy policy gradient optimization technique that can account for this mismatch in distributions. We present an illustrative example of why this is important and a theoretical convergence guarantee for our approach. Empirically, we compare our method in simulations to several strong baselines which do not correct for this mismatch, significantly improving in the quality of the policy discovered.

연구 동기 및 목표

  • MDP에서 오프라인 데이터를 활용한 순차 의사결정에 대한 동기 부여.
  • 행동 정책과 평가 정책 간의 상태 분포 불일치를 다룸.
  • 이론적 보장을 갖춘 실용적인 오프폴리시 정책 그래디언트 방법 개발.
  • 상태 분포 보정을 무시한 베이스라인에 비해 경험적 이득을 입증.

제안 방법

  • 상태 분포 비율 추정에 기반한 그래디언트 보정을 제안.
  • 낙관적이면서도 비교 가능한 정책 값을 보장하기 위해 augmented MDP M_mu를 도입.
  • 비율 d^pi(s)/d^mu(s)를 포함하는 오프폴리시 정책 그래디언트 추정기를 도출.
  • 커버리지를 보장하는 스무딩된 행동 정책을 사용하고 거짓 밀도 비율 w(s)에 대해 RKHS 기반 학습을 적용.
  • 행위자-비평가 알고리즘(OPPOSD)를 구현하여 비평가, 밀도 비율 추정기 w, 정책 그래디언트 업데이트를 포함.
  • 일반적인 가정 하에서 정지점 수렴을 보이는 수렴 결과를 제공.

실험 결과

연구 질문

  • RQ1상태 방문 분포 불일치를 보정하는 것이 배치 오프폴리시 정책 최적화를 개선할 수 있는가?
  • RQ2지수적 분산 증가 없이 오프폴리시 데이터에서 정책 그래디언트를 추정하는 것이 가능한가?
  • RQ3상태 분포 보정이 Off-PAC 및 다른 베이스라인에 비해 벤치마크 도메인에서 경험적 이득을 주는가?
  • RQ4제안된 추정기가 수렴 보장을 갖춘 안정적인 Actor-Critic 최적화와 통합될 수 있는가?

주요 결과

  • OPPOSD는 CartPole 및 HIV 치료 시뮬레이터에서 Off-PAC 및 행동 정책보다 더 높은 정책 성능을 달성한다.
  • 상태 분포 불일치 보정은 Off-PAC가 실패하는 제시된 예에서 그래디언트 추정 품질을 크게 향상시킨다.
  • 밀도 비율 및 비평가 추정치의 추정 오차가 소멸하면 알고리즘은 정지점으로 수렴한다.
  • 실험은 밀도 비율 보정 및 오프폴리시 평가를 통합하면 최적화 중에 좋은 정책을 식별할 수 있음을 보여준다.
  • 상태 분포 보정은 그래디언트 추정의 과도한 분산 증가를 요구하지 않는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.