[논문 리뷰] First Order Constrained Optimization in Policy Space
FOCOPS는 비용 제약을 만족시키면서 비파라메트릭 업데이트를 정책 공간에서 해결한 후 파라메트릭 정책으로 투영하여 수익을 최적화하는 1차(일阶) 제약 강화학습 방법이다.
In reinforcement learning, an agent attempts to learn high-performing behaviors through interacting with the environment, such behaviors are often quantified in the form of a reward function. However some aspects of behavior-such as ones which are deemed unsafe and to be avoided-are best captured through constraints. We propose a novel approach called First Order Constrained Optimization in Policy Space (FOCOPS) which maximizes an agent's overall reward while ensuring the agent satisfies a set of cost constraints. Using data generated from the current policy, FOCOPS first finds the optimal update policy by solving a constrained optimization problem in the nonparameterized policy space. FOCOPS then projects the update policy back into the parametric policy space. Our approach has an approximate upper bound for worst-case constraint violation throughout training and is first-order in nature therefore simple to implement. We provide empirical evidence that our simple approach achieves better performance on a set of constrained robotics locomotive tasks.
연구 동기 및 목표
- CMDP와 제약 정책 최적화를 통해 강화학습의 안전성에 대한 동기를 부여한다.
- 비파라메트릭 최적 업데이트를 먼저 찾고 이를 파라메트릭 정책 공간으로 투영하는 두 단계 방법을 소개한다.
- 훈련 중 근사 최악의 제약 위반에 대한 이론적 보장을 제공한다.
- 고차원 연속 제어 작업에서 최첨단 제약 강화학습 방법들에 대한 경험적 개선을 보여준다.
제안 방법
- 간단화를 위해 단일 비용 제약을 갖는 CMDP로 제약 강화학습을 형식화한다.
- 1단계에서 비파라메트릭 정책 공간에서 제약 최적 업데이트 정책 π*를 얻는 최적화 문제를 푼다(정리 1은 거의 닫힌 형식 π*(a|s) ∝ π_θk(a|s) exp((A^{π_θk}(s,a) - ν A_C^{π_θk}(s,a))/λ)로, λ, ν는 이중 문제에 의해 결정된다).
- π*를 KL-발산 손실 L(θ)=E_{s∼d^{π_θk}}[D_KL(π_θ(·|s) ∥ π*(·|s))]를 최소화하여 파라메트릭 정책 공간으로 다시 투영한다.
- 정책 KL 항과 비용 인지 이점 항을 결합하는 그래디언트 형태를 도출하고(코롤로리 1), L(θ)를 최소화하기 위한 1차 그래디언트 업데이트를 사용한다.
- 비용 제약을 강제하기 위해 프라이멀-듀얼 유사 규칙(식 14)로 ν를 업데이트하고 수용 지시자(acceptance indicator)를 활용해 업데이트를 신뢰 구간(trust region) 내에 유지한다(식 15).
- 간단성과 안정성을 위해 2차 피셔 정보 행렬 역행렬을 피하고 1차 방법에 의존하며, CPO 및 라그랑지 baselines와의 비교를 포함한 실험 설정을 제공한다.
실험 결과
연구 질문
- RQ1제약 정책 최적화를 오직 1차 방법만으로 효율적으로 구현할 수 있는가?
- RQ2비파라메트릭 정책 공간에서 제약 업데이트를 해결하고 이를 다시 투영하는 것이 근사 제약 만족성과 함께 성능 향상을 가져오는가?
- RQ3고차원 연속 제어 작업에서 FOCOPS의 경험적 성능 및 제약 준수 특성은 어떠한가?
- RQ4λ 및 최대 ν와 같은 하이퍼파라미터가 성능과 제약 준수에 어떻게 영향을 미치는가?
- RQ5다양한 로봇 작업에서 FOCOPS가 CPO 및 라그랑지 기반 방법과 비교해 어떤 차이를 보이는가?
주요 결과
| 환경(Environment) | PPO-L 보상 | PPO-L 비용 | TRPO-L 보상 | TRPO-L 비용 | CPO 보상 | CPO 비용 | FOCOPS 보상 | FOCOPS 비용 | 환경(circle) | PPO-L 보상 | PPO-L 비용 | TRPO-L 보상 | TRPO-L 비용 | CPO 보상 | CPO 비용 | FOCOPS 보상 | FOCOPS 비용 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Ant-v3 | 1291.4 | 98.78 | 1585.7 | 107.82 | 1406.0 | 100.25 | 1830.0 | 102.75 | Ant-Circle | 637.4 | 50.4 | 416.7 | 50.4 | 390.9 | 50.0 | 965.9 | 49.9 |
| HalfCheetah-v3 | 1141.3 | 151.53 | 1621.59 | 164.93 | 1470.8 | 150.05 | 1612.2 | 152.36 | Humanoid-Circle | 1024.5 | 50.3 | 697.5 | 49.6 | 671.0 | 47.9 | 1106.1 | 49.9 |
| Hopper-v3 | 1433.8 | 81.29 | 750.3 | 87.57 | 1167.1 | 80.39 | 1953.4 | 81.84 | Humanoid-Circle | 1106.1 | 49.9 | 50.0 | ? | ? | ? | ? | ? |
| Humanoid-v3 | 471.3 | 18.89 | 4062.4 | 19.23 | 3952.7 | 15.83 | 4529.7 | 18.63 | Circle task (Humanoid) | 1104.5 | 50.0 | ? | ? | ? | ? | 1106.1 | 49.9 |
| Swimmer-v3 | 29.73 | 24.72 | 21.15 | 28.57 | 20.31 | 23.88 | 31.94 | 25.29 | Circle task (Swimmer) | ? | ? | ? | ? | ? | ? | ? | ? |
| Walker2d-v3 | 2074.4 | 81.7 | 1153.1 | 80.79 | 1040.0 | 78.12 | 2485.9 | 81.27 | ? | ? | ? | ? | ? | ? | ? | ? |
- FOCOPS는 제약 준수를 대략적으로 유지하면서 MuJoCo 작업의 속도 제한 하에서 더 높거나 경쟁력 있는 보상을 달성한다.
- CPO 및 라그랑지 baselines에 비해 FOCOPS가 보상에서 자주 더 잘 수행하면서 비용을 제약 내에 유지하는 경향이 있고, TRPO-L은 일부 작업에서 제약을 위반할 수 있다.
- 실용적 구현이 간단하며 전적으로 1차적이며, ν_max 및 λ와 같은 하이퍼파라미터 선택에 대해 견고성을 보인다.
- 일반화 실험에서 Hopper-v3를 제외한 대부분의 과제에서 unseen seeds에 대해 FOCOPS가 다른 제약 방법들보다 우수한 경향을 보인다.
- 민감도 분석에 따르면 성능은 ν_max(무한대일 때도 포함)에는 크게 민감하지 않으며, λ를 합리적인 값으로 설정하면 좋은 성능을 내는 경향이 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.