Skip to main content
QUICK REVIEW

[논문 리뷰] First Order Constrained Optimization in Policy Space

Yiming Zhang, Quan Vuong|arXiv (Cornell University)|2020. 02. 16.
Reinforcement Learning in Robotics참고 문헌 47인용 수 52
한 줄 요약

FOCOPS는 비용 제약을 만족시키면서 비파라메트릭 업데이트를 정책 공간에서 해결한 후 파라메트릭 정책으로 투영하여 수익을 최적화하는 1차(일阶) 제약 강화학습 방법이다.

ABSTRACT

In reinforcement learning, an agent attempts to learn high-performing behaviors through interacting with the environment, such behaviors are often quantified in the form of a reward function. However some aspects of behavior-such as ones which are deemed unsafe and to be avoided-are best captured through constraints. We propose a novel approach called First Order Constrained Optimization in Policy Space (FOCOPS) which maximizes an agent's overall reward while ensuring the agent satisfies a set of cost constraints. Using data generated from the current policy, FOCOPS first finds the optimal update policy by solving a constrained optimization problem in the nonparameterized policy space. FOCOPS then projects the update policy back into the parametric policy space. Our approach has an approximate upper bound for worst-case constraint violation throughout training and is first-order in nature therefore simple to implement. We provide empirical evidence that our simple approach achieves better performance on a set of constrained robotics locomotive tasks.

연구 동기 및 목표

  • CMDP와 제약 정책 최적화를 통해 강화학습의 안전성에 대한 동기를 부여한다.
  • 비파라메트릭 최적 업데이트를 먼저 찾고 이를 파라메트릭 정책 공간으로 투영하는 두 단계 방법을 소개한다.
  • 훈련 중 근사 최악의 제약 위반에 대한 이론적 보장을 제공한다.
  • 고차원 연속 제어 작업에서 최첨단 제약 강화학습 방법들에 대한 경험적 개선을 보여준다.

제안 방법

  • 간단화를 위해 단일 비용 제약을 갖는 CMDP로 제약 강화학습을 형식화한다.
  • 1단계에서 비파라메트릭 정책 공간에서 제약 최적 업데이트 정책 π*를 얻는 최적화 문제를 푼다(정리 1은 거의 닫힌 형식 π*(a|s) ∝ π_θk(a|s) exp((A^{π_θk}(s,a) - ν A_C^{π_θk}(s,a))/λ)로, λ, ν는 이중 문제에 의해 결정된다).
  • π*를 KL-발산 손실 L(θ)=E_{s∼d^{π_θk}}[D_KL(π_θ(·|s) ∥ π*(·|s))]를 최소화하여 파라메트릭 정책 공간으로 다시 투영한다.
  • 정책 KL 항과 비용 인지 이점 항을 결합하는 그래디언트 형태를 도출하고(코롤로리 1), L(θ)를 최소화하기 위한 1차 그래디언트 업데이트를 사용한다.
  • 비용 제약을 강제하기 위해 프라이멀-듀얼 유사 규칙(식 14)로 ν를 업데이트하고 수용 지시자(acceptance indicator)를 활용해 업데이트를 신뢰 구간(trust region) 내에 유지한다(식 15).
  • 간단성과 안정성을 위해 2차 피셔 정보 행렬 역행렬을 피하고 1차 방법에 의존하며, CPO 및 라그랑지 baselines와의 비교를 포함한 실험 설정을 제공한다.

실험 결과

연구 질문

  • RQ1제약 정책 최적화를 오직 1차 방법만으로 효율적으로 구현할 수 있는가?
  • RQ2비파라메트릭 정책 공간에서 제약 업데이트를 해결하고 이를 다시 투영하는 것이 근사 제약 만족성과 함께 성능 향상을 가져오는가?
  • RQ3고차원 연속 제어 작업에서 FOCOPS의 경험적 성능 및 제약 준수 특성은 어떠한가?
  • RQ4λ 및 최대 ν와 같은 하이퍼파라미터가 성능과 제약 준수에 어떻게 영향을 미치는가?
  • RQ5다양한 로봇 작업에서 FOCOPS가 CPO 및 라그랑지 기반 방법과 비교해 어떤 차이를 보이는가?

주요 결과

환경(Environment)PPO-L 보상PPO-L 비용TRPO-L 보상TRPO-L 비용CPO 보상CPO 비용FOCOPS 보상FOCOPS 비용환경(circle)PPO-L 보상PPO-L 비용TRPO-L 보상TRPO-L 비용CPO 보상CPO 비용FOCOPS 보상FOCOPS 비용
Ant-v31291.498.781585.7107.821406.0100.251830.0102.75Ant-Circle637.450.4416.750.4390.950.0965.949.9
HalfCheetah-v31141.3151.531621.59164.931470.8150.051612.2152.36Humanoid-Circle1024.550.3697.549.6671.047.91106.149.9
Hopper-v31433.881.29750.387.571167.180.391953.481.84Humanoid-Circle1106.149.950.0?????
Humanoid-v3471.318.894062.419.233952.715.834529.718.63Circle task (Humanoid)1104.550.0????1106.149.9
Swimmer-v329.7324.7221.1528.5720.3123.8831.9425.29Circle task (Swimmer)????????
Walker2d-v32074.481.71153.180.791040.078.122485.981.27????????
  • FOCOPS는 제약 준수를 대략적으로 유지하면서 MuJoCo 작업의 속도 제한 하에서 더 높거나 경쟁력 있는 보상을 달성한다.
  • CPO 및 라그랑지 baselines에 비해 FOCOPS가 보상에서 자주 더 잘 수행하면서 비용을 제약 내에 유지하는 경향이 있고, TRPO-L은 일부 작업에서 제약을 위반할 수 있다.
  • 실용적 구현이 간단하며 전적으로 1차적이며, ν_max 및 λ와 같은 하이퍼파라미터 선택에 대해 견고성을 보인다.
  • 일반화 실험에서 Hopper-v3를 제외한 대부분의 과제에서 unseen seeds에 대해 FOCOPS가 다른 제약 방법들보다 우수한 경향을 보인다.
  • 민감도 분석에 따르면 성능은 ν_max(무한대일 때도 포함)에는 크게 민감하지 않으며, λ를 합리적인 값으로 설정하면 좋은 성능을 내는 경향이 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.