QUICK REVIEW

[논문 리뷰] First Order Constrained Optimization in Policy Space

Yiming Zhang, Quan Vuong|arXiv (Cornell University)|2020. 02. 16.

Reinforcement Learning in Robotics참고 문헌 47인용 수 52

한 줄 요약

FOCOPS는 비용 제약을 만족시키면서 비파라메트릭 업데이트를 정책 공간에서 해결한 후 파라메트릭 정책으로 투영하여 수익을 최적화하는 1차(일阶) 제약 강화학습 방법이다.

ABSTRACT

In reinforcement learning, an agent attempts to learn high-performing behaviors through interacting with the environment, such behaviors are often quantified in the form of a reward function. However some aspects of behavior-such as ones which are deemed unsafe and to be avoided-are best captured through constraints. We propose a novel approach called First Order Constrained Optimization in Policy Space (FOCOPS) which maximizes an agent's overall reward while ensuring the agent satisfies a set of cost constraints. Using data generated from the current policy, FOCOPS first finds the optimal update policy by solving a constrained optimization problem in the nonparameterized policy space. FOCOPS then projects the update policy back into the parametric policy space. Our approach has an approximate upper bound for worst-case constraint violation throughout training and is first-order in nature therefore simple to implement. We provide empirical evidence that our simple approach achieves better performance on a set of constrained robotics locomotive tasks.

연구 동기 및 목표

CMDP와 제약 정책 최적화를 통해 강화학습의 안전성에 대한 동기를 부여한다.
비파라메트릭 최적 업데이트를 먼저 찾고 이를 파라메트릭 정책 공간으로 투영하는 두 단계 방법을 소개한다.
훈련 중 근사 최악의 제약 위반에 대한 이론적 보장을 제공한다.
고차원 연속 제어 작업에서 최첨단 제약 강화학습 방법들에 대한 경험적 개선을 보여준다.

제안 방법

간단화를 위해 단일 비용 제약을 갖는 CMDP로 제약 강화학습을 형식화한다.
1단계에서 비파라메트릭 정책 공간에서 제약 최적 업데이트 정책 π*를 얻는 최적화 문제를 푼다(정리 1은 거의 닫힌 형식 π*(a|s) ∝ π_θk(a|s) exp((A^{π_θk}(s,a) - ν A_C^{π_θk}(s,a))/λ)로, λ, ν는 이중 문제에 의해 결정된다).
π*를 KL-발산 손실 L(θ)=E_{s∼d^{π_θk}}[D_KL(π_θ(·|s) ∥ π*(·|s))]를 최소화하여 파라메트릭 정책 공간으로 다시 투영한다.
정책 KL 항과 비용 인지 이점 항을 결합하는 그래디언트 형태를 도출하고(코롤로리 1), L(θ)를 최소화하기 위한 1차 그래디언트 업데이트를 사용한다.
비용 제약을 강제하기 위해 프라이멀-듀얼 유사 규칙(식 14)로 ν를 업데이트하고 수용 지시자(acceptance indicator)를 활용해 업데이트를 신뢰 구간(trust region) 내에 유지한다(식 15).
간단성과 안정성을 위해 2차 피셔 정보 행렬 역행렬을 피하고 1차 방법에 의존하며, CPO 및 라그랑지 baselines와의 비교를 포함한 실험 설정을 제공한다.

실험 결과

연구 질문

RQ1제약 정책 최적화를 오직 1차 방법만으로 효율적으로 구현할 수 있는가?
RQ2비파라메트릭 정책 공간에서 제약 업데이트를 해결하고 이를 다시 투영하는 것이 근사 제약 만족성과 함께 성능 향상을 가져오는가?
RQ3고차원 연속 제어 작업에서 FOCOPS의 경험적 성능 및 제약 준수 특성은 어떠한가?
RQ4λ 및 최대 ν와 같은 하이퍼파라미터가 성능과 제약 준수에 어떻게 영향을 미치는가?
RQ5다양한 로봇 작업에서 FOCOPS가 CPO 및 라그랑지 기반 방법과 비교해 어떤 차이를 보이는가?

주요 결과

환경(Environment)	PPO-L 보상	PPO-L 비용	TRPO-L 보상	TRPO-L 비용	CPO 보상	CPO 비용	FOCOPS 보상	FOCOPS 비용	환경(circle)	PPO-L 보상	PPO-L 비용	TRPO-L 보상	TRPO-L 비용	CPO 보상	CPO 비용	FOCOPS 보상	FOCOPS 비용
Ant-v3	1291.4	98.78	1585.7	107.82	1406.0	100.25	1830.0	102.75	Ant-Circle	637.4	50.4	416.7	50.4	390.9	50.0	965.9	49.9
HalfCheetah-v3	1141.3	151.53	1621.59	164.93	1470.8	150.05	1612.2	152.36	Humanoid-Circle	1024.5	50.3	697.5	49.6	671.0	47.9	1106.1	49.9
Hopper-v3	1433.8	81.29	750.3	87.57	1167.1	80.39	1953.4	81.84	Humanoid-Circle	1106.1	49.9	50.0	?	?	?	?	?
Humanoid-v3	471.3	18.89	4062.4	19.23	3952.7	15.83	4529.7	18.63	Circle task (Humanoid)	1104.5	50.0	?	?	?	?	1106.1	49.9
Swimmer-v3	29.73	24.72	21.15	28.57	20.31	23.88	31.94	25.29	Circle task (Swimmer)	?	?	?	?	?	?	?	?
Walker2d-v3	2074.4	81.7	1153.1	80.79	1040.0	78.12	2485.9	81.27	?	?	?	?	?	?	?	?

FOCOPS는 제약 준수를 대략적으로 유지하면서 MuJoCo 작업의 속도 제한 하에서 더 높거나 경쟁력 있는 보상을 달성한다.
CPO 및 라그랑지 baselines에 비해 FOCOPS가 보상에서 자주 더 잘 수행하면서 비용을 제약 내에 유지하는 경향이 있고, TRPO-L은 일부 작업에서 제약을 위반할 수 있다.
실용적 구현이 간단하며 전적으로 1차적이며, ν_max 및 λ와 같은 하이퍼파라미터 선택에 대해 견고성을 보인다.
일반화 실험에서 Hopper-v3를 제외한 대부분의 과제에서 unseen seeds에 대해 FOCOPS가 다른 제약 방법들보다 우수한 경향을 보인다.
민감도 분석에 따르면 성능은 ν_max(무한대일 때도 포함)에는 크게 민감하지 않으며, λ를 합리적인 값으로 설정하면 좋은 성능을 내는 경향이 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.