Skip to main content
QUICK REVIEW

[논문 리뷰] Reward Constrained Policy Optimization

Chen Tessler, Daniel J. Mankowitz|arXiv (Cornell University)|2018. 05. 28.
Reinforcement Learning in Robotics참고 문헌 29인용 수 235
한 줄 요약

RCPO는 체 feasibility를 향하도록 정책을 편향시키는 할인된 페널티 신호를 사용하는 다중 시계 스케일 제약 정책 최적화를 도입하며, 이론적 수렴 보장과 기존 방법보다 향상된 실험 성능을 제공합니다.

ABSTRACT

Solving tasks in Reinforcement Learning is no easy feat. As the goal of the agent is to maximize the accumulated reward, it often learns to exploit loopholes and misspecifications in the reward signal resulting in unwanted behavior. While constraints may solve this issue, there is no closed form solution for general constraints. In this work we present a novel multi-timescale approach for constrained policy optimization, called `Reward Constrained Policy Optimization' (RCPO), which uses an alternative penalty signal to guide the policy towards a constraint satisfying one. We prove the convergence of our approach and provide empirical evidence of its ability to train constraint satisfying policies.

연구 동기 및 목표

  • 제약 강화학습을 동인으로 활용하여 바람직하지 않은 보상 악용을 방지하고 제약 satisfied를 보장합니다.
  • 페널티 계수의 사전 조정 없이 제약을 보상 신호에 통합하는 페널티 기반 접근법을 제안합니다.
  • 완만한 가정 하에 RCPO의 수렴 보장을 확립합니다.
  • 그리드 월드 및 Mujoco 로봇 도메인 전반에서 RCPO의 실험적 이점을 입증합니다.
  • RCPO를 보상 형성(reward shaping) 및 전통적 제약 최적화 베이스라인과 비교합니다.]
  • method":["제약 MDP(CMDP)를 형식화하고 라그랑주 이완을 적용하여 두 시계 업데이트를 만듭니다: 빠른 정책 매개변수 θ와 느린 페널티 λ.","Cγ를 통해 할인 가이드 페널티를 도입하고 penalized rewards r̂(λ, s, a) = r(s,a) − λ c(s,a)로 정의합니다.","로그 가능도 트릭과 TD 기반 비평가를 사용한 페널라이즈드 가치 V̂π(λ, s)로 그라디언트를 정책 경사로 추정합니다.","세 시계 RCPO 동작: 빠른 오더-크리틱 업데이트, 중간 정책 최적화, 느린 λ 업데이트를 통해 JCπ ≤ α를 만족합니다.","가이드 페널티를 실제 제약과 연계하는 가정들 아래 거의 확실한 수렴(정리 2)을 보입니다.","RCPO 알고리즘 템플릿(Algorithm 1) 및 RCPO Advantage Actor-Critic 변형(Appendix A)을 제공합니다."]
  • research_questions":["페널티 기반의 보상 유도 접근법이 페널티를 수동으로 조정하지 않고 CMDP의 일반화된 제약 조건을 만족시킬 수 있는가?","실용적으로 RCPO가 제약 만족 정책으로 수렴하며 샘플 효율은 어떤가?","RCPO의 그리드 월드 및 Mujoco 지속 공간 도메인에서 보상 형성 및 전통적 제약 방법과 비교 성능은 어떠한가?","할인 가이드 페널티를 사용하는 것이 제약 RL의 안정성과 수렴에 어떤 영향을 미치는가?","RCPO가 실용적으로 할인합(discounted-sum) 제약과 평균값(mean-value) 제약 모두를 다룰 수 있는가?]
  • key_findings":["RCPO는 완만한 가정 하에 제약 만족 고정점으로 거의 확실하게 수렴한다(정리 2).","실험에서 RCPO는 그리드 월드 화성 탐사 도메인에서 표준 제약 최적화 베이스라인보다 더 빠른 수렴과 낮은 분산으로 제약 만족 정책을 달성한다.","Mujoco 로봇 도메인에서 RCPO는 제약 가능한(또는 거의 가능) 토크 제약 정책을 찾고, 여러 환경에서 고정 λ 보상 형성 방식보다 일반적으로 우수한 성능을 보인다(스위머, 워커투디, 호퍼, 휴미노이드, HalfCheetah, Ant).","상수 페널티 방식(보상 형성)은 도메인 특화 조정이 필요하고 학습이 진행될수록 정책이 불안정해질 수 있는 반면, RCPO는 보상과 제약 만족의 균형을 맞추기 위해 λ를 적응시키고 있다.","RCPO는 샘플 효율성과 안정성을 개선하며 수동 페널티 계수 조정의 필요성을 피하고 재귀 벨만 방정식을 만족하는 제약을 넘어서는 일반 제약을 처리한다."]
  • table_headers":["도메인","토크 (λ=0)","보상 (λ=0)","토크 (λ=0.00001)","보상 (λ=0.00001)","토크 (λ=0.1)","보상 (λ=0.1)","토크 (λ=100)","보상 (λ=100)","RCPO 토크","RCPO 보상"],
  • table_rows":[["Swimmer-v2","30.4%","94.4","37.4%","65.1","32.8%","16.5","2.4%","11.7","24%","72.7"],["Walker2d-v2","?","3364.1","28.4%","3198.9","13.6%","823.5","17.8%","266.1","25.2%","591.6"],["Hopper-v2","31.5%","2610.7","31.4%","1768.2","15.7%","865.9","14.3%","329.4","26%","1138.5"],["Humanoid-v2","28.6%","617.1","28.1%","617.1","28.5%","1151.8","30.5%","119.4","24.3%","606.1"],["HalfCheetah-v2","37.8%","2989.5","40.8%","2462.3","13.87%","-0.4","13.9%","-2.4","26.7%","1547.1"],["Ant-v2","36.7%","1313.1","35.9%","1233.5","16.6%","1012.2","16.7%","957.2","15.2%","1031.5"]]} } // Note: The final JSON is provided with Korean translations for natural language fields. Numbers and table cells remain unchanged. End of output.} } } } } } } } } } } } } } } } } } } }} } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } } }`),

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.