Skip to main content
QUICK REVIEW

[논문 리뷰] AlgaeDICE: Policy Gradient from Arbitrary Experience

Ofir Nachum, Bo Dai|arXiv (Cornell University)|2019. 12. 04.
Reinforcement Learning in Robotics참고 문헌 52인용 수 82
한 줄 요약

AlgaeDICE는 임의의 오프 폴리시 데이터에서 중요도 가중치 없이 정책 경사를 회복하기 위해 밀도 정규화와 이중 함수를 사용하는 오프폴리시 정책 그래디언트 방법을 제안한다.

ABSTRACT

In many real-world applications of reinforcement learning (RL), interactions with the environment are limited due to cost or feasibility. This presents a challenge to traditional RL algorithms since the max-return objective involves an expectation over on-policy samples. We introduce a new formulation of max-return optimization that allows the problem to be re-expressed by an expectation over an arbitrary behavior-agnostic and off-policy data distribution. We first derive this result by considering a regularized version of the dual max-return objective before extending our findings to unregularized objectives through the use of a Lagrangian formulation of the linear programming characterization of Q-values. We show that, if auxiliary dual variables of the objective are optimized, then the gradient of the off-policy objective is exactly the on-policy policy gradient, without any use of importance weighting. In addition to revealing the appealing theoretical properties of this approach, we also show that it delivers good practical performance.

연구 동기 및 목표

  • 비용이 많이 들거나 제한된 환경 상호작용으로부터의 학습 동기 부여 및 오프폴리시 정책 최적화를 가능하게 한다.
  • 상태-행동 점유율에 대한 밀도 정규화를 사용하여 최대 수익 최적화를 오프폴리시 문제로 재정의한다.
  • 임의의 데이터에서 최적화될 수 있는 정책(액터)와 이중 함수(크리틱)를 연결하는 샌들 포인트 목적을 도출한다.
  • 정책 및 이중 함수를 최적화할 때 온폴리시 정책 그래디언트를 얻는 규제된 보상 tilde{r}(s,a) = r(s,a) - α f'(w_{π/ D}(s,a))를 보여준다.
  • 정책 및 가치 학습에 대한 단일 통합 목표를 제공하고 행동에 무관한 오프폴리시 최적화를 가능하게 하는 라그랑주/L P 관점을 논의한다.

제안 방법

  • 정규화된 상태-행동 점유율의 관점에서 최대 수익 목표의 이중형식에서 시작한다.
  • 온-폴리시와 오프폴리시 점유율 간의 f-다이버전스 규제를 도입하여 오프폴리시 데이터 사용을 가능하게 한다.
  • 정변환(change of variables)을 적용하여 정책과 이중 함수 ν를 최적화하는 순수 오프폴리시 목적 J_{D,f}(π,ν)을 얻는다.
  • f-다이버전스의 변분 형태와 이중 임베딩을 사용하여 이중 샘플링 문제를 처리한다.
  • 이중 ν가 최적화될 때 정책 매개변수에 대한 기울기가 수정된 보상 tilde{r}(s,a) = r(s,a) - α f'(w_{π/ D}(s,a))를 가진 온폴리시 정책 그래디언트와 일치함을 시연한다.
  • 정책-가치 학습에 대한 단일 통합 목표를 가능하게 하고 행태-무관한 오프폴리시 최적화를 가능하게 하는 라그랑주/LP 관점을 논의한다.

실험 결과

연구 질문

  • RQ1중요도 가중치 없이 최대 수익 최적화를 오프폴리시 문제로 표현할 수 있는가?
  • RQ2양수의 오프폴리시 데이터로 학습할 때 이중 최적화가 온폴리시 정책 그래디언트를 초래하는가?
  • RQ3f-다이버전스 정규화 및 이중 임베딩이 안정적인 오프폴리시 정책 최적화를 어떻게 가능하게 하는가?
  • RQ4오프폴리시 데이터 하에서의 AlgaeDICE에 대한 이론적 보장 및 실제적 시사점은 무엇인가?

주요 결과

  • 오프폴리시 목적이 이중 함수가 최적화될 때 온폴리시 정책 그래디언트를 재현한다.
  • 규제된 이중식은 중요도 가중치 없이 오프폴리시 데이터에서 정책과 크리틱을 함께 학습하는 통합 목표를 산출한다.
  • 2차식 f를 선택하면 액터-크리틱과 유사한 목적이 되지만 원칙적인 행동 무관한 오프폴리시 기초를 가진다.
  • 라그랑주/LP 관점은 강한 대수적 이중성을 제공하고 알고리즘이 규칙화된 최대 수익 목표와 일치하는 Fenchel AlgaeDICE 목적을 복구할 수 있게 한다.
  • 실험적 결과에서 AlgaeDICE가 Four Rooms 오프라인 및 연속 제어 스위트의 벤치마크 작업에서 잘 수행될 수 있음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.