[논문 리뷰] Convergent Policy Optimization for Safe Reinforcement Learning
이 논문은 비볼록 목적 함수 및 제약 함수의 국소 2차 근사 근사를 정책 기울기 추정기를 통해 사용하여 비볼록 제약 조건이 있는 안전 강화학습을 위한 수렴하는 정책 최적화 알고리즘을 제안한다. 원래의 비볼록 문제의 정류점으로의 수렴을 증명하고, LQR 및 다중 에이전트 벤치마크에서 라그랑주 방법 대비 뛰어난 샘플 효율성과 안정성을 보여준다.
We study the safe reinforcement learning problem with nonlinear function approximation, where policy optimization is formulated as a constrained optimization problem with both the objective and the constraint being nonconvex functions. For such a problem, we construct a sequence of surrogate convex constrained optimization problems by replacing the nonconvex functions locally with convex quadratic functions obtained from policy gradient estimators. We prove that the solutions to these surrogate problems converge to a stationary point of the original nonconvex problem. Furthermore, to extend our theoretical results, we apply our algorithm to examples of optimal control and multi-agent reinforcement learning with safety constraints.
연구 동기 및 목표
- 비볼록 함수 근사가 적용되는 대규모 설정에서 목적 함수와 안전 제약 조건이 모두 비볼록인 안전 강화학습 문제를 다루는 것.
- 비볼록-볼록 사 saddle-point 문제로 인한 계산 불가능성과 불안정성 등의 문제를 야기하는 라그랑주 방법의 한계를 극복하는 것.
- 원래의 비볼록 제약 조건이 있는 문제의 정류점으로 수렴을 보장하는 정책 최적화 알고리즘을 개발하는 것.
- 이론적 수렴 보장을 실용적인 고차원 강화학습 문제, 예를 들어 최적 제어 및 다중 에이전트 시스템 등으로 확장하는 것.
제안 방법
- 정책 기울기 추정기를 기반으로 한 일阶 테일러 전개를 사용하여 비볼록 목적 함수 및 제약 조건에 대한 국소 2차 근사 함수를 구성한다.
- 각 반복에서 이러한 2차 근사 함수로 구성된 일련의 볼록 하위문제를 풀어 정책 파라미터를 갱신한다.
- 안정성과 수렴성을 보장하기 위해 적응형 학습률 ηₖ = (2/3)k⁻³ᐟ⁴ 와 ρₖ = (2/3)k⁻²ᐟ³ 를 사용한다.
- 닫힌 형태의 해가 없는 경우 몬테카를로 샘플링을 사용하여 제약 조건이 있는 LQR 및 다중 에이전트 MDP에 알고리즘을 적용한다.
- 정책 최적화 중 불안정성을 방지하기 위해 트러스트 영역 유사 업데이트 메커니즘을 적용한다.
- 이론적 분석을 통해 정책 수열이 원래의 비볼록 문제의 정류점으로 거의 확실하게 수렴함을 보였다.
실험 결과
연구 질문
- RQ1비볼록 제약 조건이 있는 비볼록 제약 강화학습 문제에서 비볼록 함수 근사가 적용되는 정책 최적화 알고리즘이 정류점으로 수렴할 수 있는가?
- RQ2목적 함수와 제약 조건이 모두 비볼록일 경우, 안전 강화학습에서 정책 최적화를 어떻게 안정화하고 가속화할 수 있는가?
- RQ3비볼록 함수를 국소 2차 근사로 대체할 경우, 제약 조건이 있는 강화학습에 대해 증명 가능하게 수렴하는 알고리즘이 도출될 수 있는가?
- RQ4라그랑주 기반 접근법과 비교할 때 수렴 속도와 안정성 측면에서 제안된 방법은 어떠한가?
- RQ5이 알고리즘은 안전 제약 조건이 있는 복잡한 고차원 문제, 예를 들어 LQR 및 다중 에이전트 MDP에 확장 가능한가?
주요 결과
- 제안된 알고리즘은 원래의 비볼록 제약 최적화 문제의 정류점으로 거의 확실하게 수렴하여 강력한 이론적 보장을 제공한다.
- LQR 실험에서, 라그랑주 방법이 필요로 하는 7492 ± 1780번의 정책 갱신 대비, 본 방법은 오직 2001 ± 1172번의 정책 갱신으로 최소 목적값 30.689 ± 0.114를 달성하였다.
- 최소값에 대해 약 0.02% 이내의 근사해를 얻기 위해 본 방법은 604.3 ± 722.4회의 반복만 필요로 하였고, 라그랑주 방법은 5464 ± 2116회의 반복을 요구하였다.
- LQR 실험에서, 알고리즘은 약 100회의 반복 이내에 비가능한 초기 정책에서 가용하고 최적의 해로의 전이를 성공적으로 수행하였다.
- LQR 시스템 동역학에서 고유값 이탈을 방지하기 위해 보수적인 학습률을 사용함으로써 시스템의 안정성을 유지하였다.
- 보조 자료에서 보여지다시피, 알고리즘은 제약 조건이 있는 병렬 MDP 및 다중 에이전트 MDP로도 확장 가능하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.