QUICK REVIEW

[논문 리뷰] Accelerated Primal-Dual Policy Optimization for Safe Reinforcement Learning

Qingkai Liang, Fanyu Que|arXiv (Cornell University)|2018. 02. 19.

Reinforcement Learning in Robotics참고 문헌 19인용 수 65

한 줄 요약

APDO는 프라이멀-듀얼 CMDP 프레임워크에서 오프폴리시 듀얼 변수 조정을 도입하여, 고정 조정 에폭 이후 한 번의 오프폴리시 듀얼 업데이트로 PDO와 CPO에 비해 샘플 효율성 및 수렴을 향상시킨다.

ABSTRACT

Constrained Markov Decision Process (CMDP) is a natural framework for reinforcement learning tasks with safety constraints, where agents learn a policy that maximizes the long-term reward while satisfying the constraints on the long-term cost. A canonical approach for solving CMDPs is the primal-dual method which updates parameters in primal and dual spaces in turn. Existing methods for CMDPs only use on-policy data for dual updates, which results in sample inefficiency and slow convergence. In this paper, we propose a policy search method for CMDPs called Accelerated Primal-Dual Optimization (APDO), which incorporates an off-policy trained dual variable in the dual update procedure while updating the policy in primal space with on-policy likelihood ratio gradient. Experimental results on a simulated robot locomotion task show that APDO achieves better sample efficiency and faster convergence than state-of-the-art approaches for CMDPs.

연구 동기 및 목표

CMDP를 이용하여 장기 비용 제약 하에서 안전한 강화학습을 동기화한다.
CMDP를 위한 더 샘플 효율적인 프라이멀-듀얼 최적화 방법을 개발한다.
듀얼 업데이트에 오프폴리시 데이터를 활용하여 제약된 정책 최적화의 수렴 속도를 빠르게 한다.

제안 방법

CMDP를 라그랑지안으로 형식화: L(pi, lambda) = R(pi) - sum_i lambda_i (C_i(pi) - d_i).
각 이터레이션에서 프라이멀에 대해 온-policy 정책 그레이디언트 업데이트를 사용하고 듀얼에 대해 듀얼 그래디언트 상승을 사용하는 프라이멀-듀얼 루프를 사용한다.
역사적 재생 데이터를 사용해 K_adj 이터레이션 후 오프폴리시의 단일 듀얼 조정 lambda_OFF를 도입한다.
재생 버퍼에서 프라이멀-듀얼 목표로 학습된 오프폴리시 알고리즘으로 lambda_OFF를 계산한다(보충 자료의 프라이멀-듀얼 DDPG).
온폴리시 듀얼 업데이트를 표준 듀얼 그래디언트 스텝으로 설정하고, K_adj에서 lambda를 lambda_OFF로 대체하여 더 빠른 수렴을 달성한다.

실험 결과

연구 질문

RQ1CMDP에서 오프폴리시로 학습된 듀얼 변수를 도입하면 최적의 프라이멀-듀얼 해에 대한 수렴이 가속되는가?
RQ2제약된 제어 작업에서 APDO는 PDO 및 CPO와 비교하여 샘플 효율성과 제약 만족도 측면에서 어떻게 다른가?
RQ3오프폴리시 듀얼 조정 에폭 K_adj가 성능과 오프폴리시 듀얼 추정의 바이어스에 미치는 영향은 무엇인가?

주요 결과

APDO는 시뮬레이션된 안전 제약 로봇 보행 작업에서 최첨단 CMDP 방법들(PDO 및 CPO)보다 더 나은 샘플 효율성을 달성한다.
APDO는 CPO만큼 제약을 효과적으로 강제하면서 보상 학습을 더 빠르게 제공한다. 예를 들어 보고된 작업에서 비슷한 보상 수준을 약 절반의 에폭만에 달성한다.
APDO의 듀얼 변수는 최적 값으로 더 빠르게 수렴하며, 오프폴리시 듀얼 조정 이후 현저한 점프가 있다.
오프폴리시 듀얼 업데이트를 사용하면 역사적 데이터를 활용하여 듀얼 최적화를 가속하고 온 폴리시 배치의 대형 필요성을 줄인다.
APDO의 개선은 거의 최적 듀얼 변수를 오프라인으로 해를 구한 뒤 온폴리시를 미세 조정하는 데에서 비롯된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.