QUICK REVIEW

[논문 리뷰] A unified view of entropy-regularized Markov decision processes

Gergely Neu, Anders Jönsson|arXiv (Cornell University)|2017. 05. 22.

Reinforcement Learning in Robotics참고 문헌 8인용 수 97

한 줄 요약

이 논문은 엔트로피-정규화된 평균 보상 MDP를 위한 볼록 최적화 프레임워크를 제시하며, 정규화된 벨만 방정식과 정규화된 평균 보상 목표 사이의 이중성을 보이고, TRPO 및 MDP-E/DPP와 Mirror Descent 또는 Dual Averaging을 연결한다.

ABSTRACT

We propose a general framework for entropy-regularized average-reward reinforcement learning in Markov decision processes (MDPs). Our approach is based on extending the linear-programming formulation of policy optimization in MDPs to accommodate convex regularization functions. Our key result is showing that using the conditional entropy of the joint state-action distributions as regularization yields a dual optimization problem closely resembling the Bellman optimality equations. This result enables us to formalize a number of state-of-the-art entropy-regularized reinforcement learning algorithms as approximate variants of Mirror Descent or Dual Averaging, and thus to argue about the convergence properties of these methods. In particular, we show that the exact version of the TRPO algorithm of Schulman et al. (2015) actually converges to the optimal policy, while the entropy-regularized policy gradient methods of Mnih et al. (2016) may fail to converge to a fixed point. Finally, we illustrate empirically the effects of using various regularization techniques on learning performance in a simple reinforcement learning setup.

연구 동기 및 목표

모델 불확실성과 평균 보상 MDP에서의 탐색 문제를 해결하기 위해 엔트로피 규화를 동기 부여한다.
선형 프로그래밍 형식을 볼록 정규화기에 확장하고 벨만 방정식과의 이중 관계를 도출한다.
엔트로피-정규화 RL 알고리즘과 온라인 볼록 최적화 방법 간의 연결고리를 보여준다.
TRPO의 수렴 특성과 엔트로피-정규화 정책 그래디언트의 수렴 특성에 대한 통찰을 제공한다.
다양한 규제 기법이 학습 성능에 미치는 실험적 효과를 제시한다.

제안 방법

볼록 규제(상대 엔트로피 및 조건부 엔트로피)를 갖는 정규화된 평균 보상 목표를 정의한다.
이중 문제를 도출하고 이중의 방정식이 정규화된 최적 벨만 방정식과 유사함을 보인다.
정규화 하에서 최적의 상태-행동 분포와 해당 가치 함수를 증명한다.
기존 알고리즘(REPS, TRPO, DPP, Mnih 등 2016)을 Mirror Descent 또는 Dual Averaging의 근사 인스턴스로 해석한다.
TRPO가 최적 정책으로 수렴하는 정확한 수렴을 확립하고 엔트로피-정규화 정책 그래디언트 방법의 비수렴 가능성에 대해 논의한다.

실험 결과

연구 질문

RQ1엔트로피 규화를 평균 보상 MDP 선형 프로그래밍 프레임워크에 어떻게 적용할 수 있는가?
RQ2상대 엔트로피나 조건부 엔트로피와 같은 볼록 규제기를 사용할 때 어떤 이중 관계가 생기는가?
RQ3전통적인 RL 알고리즘(TRPO, DPP, A3C/MNIST 스타일 방법)은 Mirror Descent 또는 Dual Averaging 관점에서 어떻게 적합한가?
RQ4이들 규제 방법이 최적의 정책으로 수렴하거나 수렴하지 않는 조건은 무엇인가?
RQ5다양한 규제기가 간단한 MDP에서 학습 성능에 어떤 실험적 영향을 미치는가?

주요 결과

정규화된 목표의 조건부 엔트로피의 이중은 정규화된 벨만 최적성 방정식을 제공한다.
정확한 업데이트를 갖는 TRPO는 최적 정책으로 수렴한다(MDP-E 알고리즘과 동등).
엔트로피-정규화 정책 그래디언트 방법(A3C/Mnih 등 2016)은 일반적으로 고정점에 수렴하지 않을 수 있다.
DPP와 TRPO는 규제 프레임워크 하에서 Mirror Descent의 근사 인스턴스로 해석될 수 있다.
프레임워크는 근사로 인한 볼록성 이슈로 인해 휴리스틱 학습 알고리즘의 잠재적 불일치를 강조한다.
다양한 규제 방식이 간단한 MDP 설정에서 학습 성능에 미치는 실험적 효과를 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.