Skip to main content
QUICK REVIEW

[논문 리뷰] Constrained Policy Optimization

Joshua Achiam, David Held|arXiv (Cornell University)|2017. 05. 30.
Reinforcement Learning in Robotics참고 문헌 20인용 수 111
한 줄 요약

제약된 정책 최적화(CPO)는 제약 강화학습에서 학습 중 제약 만족을 보장하고 대리 목표와 신뢰 영역 업데이트를 사용해 수익을 개선하는 정책 탐색 방법이다.

ABSTRACT

For many applications of reinforcement learning it can be more convenient to specify both a reward function and constraints, rather than trying to design behavior through the reward function. For example, systems that physically interact with or around humans should satisfy safety constraints. Recent advances in policy search algorithms (Mnih et al., 2016, Schulman et al., 2015, Lillicrap et al., 2016, Levine et al., 2016) have enabled new capabilities in high-dimensional control, but do not consider the constrained setting. We propose Constrained Policy Optimization (CPO), the first general-purpose policy search algorithm for constrained reinforcement learning with guarantees for near-constraint satisfaction at each iteration. Our method allows us to train neural network policies for high-dimensional control while making guarantees about policy behavior all throughout training. Our guarantees are based on a new theoretical result, which is of independent interest: we prove a bound relating the expected returns of two policies to an average divergence between them. We demonstrate the effectiveness of our approach on simulated robot locomotion tasks where the agent must satisfy constraints motivated by safety.

연구 동기 및 목표

  • 강화학습에서 무제약 보상 최적화 이상으로 안전성과 제약 만족을 동기화한다.
  • 제약 준수에 대한 보장을 갖춘 CMDP를 처리할 수 있는 범용 정책 탐색 알고리즘을 개발한다.
  • 정책 성능과 제약 하에서의 평균 정책 발산 간의 이론적 연계의 기초를 제공한다.
  • 고차원 제어를 위한 신경망 정책의 학습을 가능하게 하면서 안전 관련 제약을 강제한다.

제안 방법

  • CMDP에 대한 모노토닉 개선과 제약 만족을 보장하는 신뢰 영역 정책 최적화 방법인 CPO를 도입한다.
  • 정책 간의 수익 차이를 평균 발산과의 관계로 새로운 성능 경계로 도출한다.
  • 샘플에서 추정할 수 있는 대리 목표와 제약을 사용해 실용적 업데이트를 가능하게 한다.
  • 고차원에서 효율적으로 업데이트를 해결하기 위한 실용적이고 켤레-그래디언트 기반의 이중 최적화 방법을 제안한다.
  • 비용의 상한을 행하는 비용 구조 조정을 통해 제약 만족을 강화한다.

실험 결과

연구 질문

  • RQ1정책 탐색 알고리즘이 학습 중 CMDP 제약을 강제하면서 수익에 대한 단조로운 개선을 제공할 수 있는가?
  • RQ2평균 정책 발산에 따른 하나의 정책에서 다른 정책으로의 이동 시 성능 편차를 어떻게 구분할 수 있는가?
  • RQ3트러스트-리전 기반 업데이트가 신경망 정책에 대해 실용적이고 확장 가능한 제약 정책 최적화를 enable하는가?
  • RQ4비용 설계(제약의 상한 설정)가 실제 안전 제약 준수에 어떤 영향을 미치는가?

주요 결과

  • CPO는 시뮬레이션 로봇 보행 태스크에서 고차원 신경 정책에 대해 훈련 전반에 걸쳐 거의 제약 만족에 근접한다.
  • Primal-Dual Optimization(PDO)와 비교하여 CPO는 훈련 중 제약을 더 안정적으로 강제하고 종종 더 나은 수익을 산출한다.
  • 상한 보조 비용으로의 제약 형성은 실제 안전 제약에 대한 준수를 개선하지만 성능 유지에는 지장을 주지 않는다.
  • 고정 패널티 방식은 페널티 값에 민감하고 CPO는 보상과 제약의 트레이드-오프를 자동으로 균형춘다.
  • 실험 결과 TRPO의 무제약 정책은 제약을 위반하는 경우가 있어 제약 최적화의 필요성을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.