QUICK REVIEW

[논문 리뷰] Bridging the Gap Between Value and Policy Based Reinforcement Learning

Ofir Nachum, Mohammad Norouzi|arXiv (Cornell University)|2017. 02. 28.

Reinforcement Learning in Robotics인용 수 228

한 줄 요약

Path Consistency Learning(PCL)과 Unified PCL를 도입하여 엔트로피 정규화된 정책 최적화와 소프트맥스 값의 일관성을 연결하고, 안정적인 오프 폴리시 학습 및 통합된 액터-크리틱 유사 모델을 가능하게 한다.

ABSTRACT

We establish a new connection between value and policy based reinforcement learning (RL) based on a relationship between softmax temporal value consistency and policy optimality under entropy regularization. Specifically, we show that softmax consistent action values correspond to optimal entropy regularized policy probabilities along any action sequence, regardless of provenance. From this observation, we develop a new RL algorithm, Path Consistency Learning (PCL), that minimizes a notion of soft consistency error along multi-step action sequences extracted from both on- and off-policy traces. We examine the behavior of PCL in different scenarios and show that PCL can be interpreted as generalizing both actor-critic and Q-learning algorithms. We subsequently deepen the relationship by showing how a single model can be used to represent both a policy and the corresponding softmax state values, eliminating the need for a separate critic. The experimental evaluation demonstrates that PCL significantly outperforms strong actor-critic and Q-learning baselines across several benchmarks.

연구 동기 및 목표

엔트로피 정규화된 소프트맥스 일관성을 통해 가치 기반 RL과 정책 기반 RL을 연결한다.
오프 폴리시 데이터를 지원하는 궤적 수준(다단계) 일관성 목표를 개발한다.
정책과 값을 공동으로 또는 하나의 통합 모델에서 학습하는 알고리즘(PCL 및 Unified PCL)을 제안한다.
벤치마크 과제에서 강력한 기준선 대비 경험적 향상을 입증한다.

제안 방법

최적 정책과 상태 값 간의 소프트맥스(엔트로피 정규화된) 시간적 일관성을 정의한다.
0에서의 편차를 측정하는 다단계 경로 일관성 목표 C(s_i:i+d, θ, φ)를 도출한다.
정책 및 가치 매개변수에 대한 기울기 업데이트를 사용하여 샘플링된 부분 궤적에서 제곱된 일관성 오차를 최적화한다.
리플레이 버퍼를 통한 오프 폴리시 데이터와 현재 정책 롤아웃을 통한 온폴리시 데이터를 허용한다.
하나의 모델 ρ와 대응하는 V_ρ 및 π_ρ를 통해 정책과 값을 매개화하는 Unified PCL을 제안한다.
PCL을 표준 액터-크리틱 및 Q-학습에 연결하고, 이것이 두 가지를 일반화함을 보인다.

실험 결과

연구 질문

RQ1엔트로피 정규화된 소프트맥스 시간적 일관성을 어떻게 사용하여 최적 정책 확률을 소프트맥스 상태 값과 연결할 수 있는가?
RQ2다단계 경로 일관성이 안정적인 오프-폴리시 학습을 가능하게 하고 액터-크리틱과 Q-러닝을 통합할 수 있는가?
RQ3정책과 값을 모두 표현하기에 하나의 모델이면 충분한가, 그리고 Unified PCL은 PCL에 비해 어떤 성능을 보이는가?
RQ4PCL과 Unified PCL이 A3C 및 DQN과 같은 전통적 기준선에 비해 벤치마크 전반에서 어떤 경험적 이점을 가져오는가?

주요 결과

소프트맥스 시간적 일관성은 엔트로피 정규화 하에서 최적 정책 확률을 소프트맥스 상태 값에 연결한다(τ>0).
PCL은 다단계 궤적에 걸친 경로-형 일관성 오차를 최소화하여 안정적인 오프폴리시 학습을 가능하게 한다.
Unified PCL은 단일 모델로 정책과 값을 학습할 수 있어 새로운 액터-크리틱 패러다임으로 기능한다.
실험적으로 PCL과 Unified PCL은 여러 벤치마크에서 강력한 액터-크리틱 및 Q-러닝 기준선보다 우수하며, 전문가 궤적은 성능을 더욱 향상시킨다.
오프 폴리시 데이터와 함께 리플레이 버퍼를 사용하는 것은 경로-일관성 목표와 호환되며 경쟁력 있는 결과를 낸다.
PCL은 더 어려운 과제에서 A3C 성능에 근접하거나 이를 능가할 수 있으며, 보고된 실험에서 일관되게 DQN을 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.