QUICK REVIEW

[논문 리뷰] Enhance the Safety in Reinforcement Learning by ADRC Lagrangian Methods

Mingxu Zhang, Huicheng Zhang|arXiv (Cornell University)|2026. 01. 26.

Reinforcement Learning in Robotics인용 수 0

한 줄 요약

논문은 Safe RL을 위한 ADRC 기반 라그랑주 업데이트를 도입하고, 확장 상태 관측기를 사용해 교란을 추정하고 안전 제약을 매끄럽게 조절합니다. 고전적 및 PID 라그랑주 방식에 비해 위반 및 비용 감소에서 우수합니다.

ABSTRACT

Safe reinforcement learning (Safe RL) seeks to maximize rewards while satisfying safety constraints, typically addressed through Lagrangian-based methods. However, existing approaches, including PID and classical Lagrangian methods, suffer from oscillations and frequent safety violations due to parameter sensitivity and inherent phase lag. To address these limitations, we propose ADRC-Lagrangian methods that leverage Active Disturbance Rejection Control (ADRC) for enhanced robustness and reduced oscillations. Our unified framework encompasses classical and PID Lagrangian methods as special cases while significantly improving safety performance. Extensive experiments demonstrate that our approach reduces safety violations by up to 74%, constraint violation magnitudes by 89%, and average costs by 67\%, establishing superior effectiveness for Safe RL in complex environments.

연구 동기 및 목표

Safe RL의 동기 부여와 oscillations(진동) 및 매개변수 민감도 측면에서 고전적 및 PID 라그랑주 업데이트의 한계.
제약 반환에 영향을 주는 교란을 추정하기 위해 관측자를 도입한 ADRC-라그랑주 방법 제안.
ADRC가 PID 및 고전적 라그랑주 방법을 일반화하고 위상 지연을 감소시키는 이론적 분석 제공.
다양한 벤치마크에서 ADRC-라그랑주 방법이 제약 위반, 위반 크기, 평균 비용을 크게 감소시킨다는 실험적 시연.

제안 방법

Safe RL을 제약 반환에 작용하는 라그랑주 승수의 폐회로 시스템으로 모델링합니다.
제약 충족을 원활하게 유도하고 조기 과도한 조정을 피하기 위해 Arranged transient reference r(t)를 도입합니다.
제약 반환에 영향을 주는 전체 교란을 추정하기 위해 Extended State Observer(ESO)를 추가합니다.
r(t)의 추적, 교란 추정치 및 도출값을 결합하는 ADRC 기반 규칙으로 라그랑주 승수를 업데이트합니다(Eq. 17).
클래식 PID 라그랑주 업데이트가 특정 매개변수 매핑하에서 ADRC 규칙의 특수한 경우임을 보입니다.
환경 민감도 경계(L1, L2, L3)에 기반한 안정성을 보장하기 위한 ESO 게인의 원리적 아래 경계 omega_o*를 제공합니다.
주파수 영역에서의 안정성 및 교란 추정 이점(낮은 추정 오차 및 감소된 위상 지연)을 논의합니다.
큰 λ 효과를 완화하기 위한 스케일된 목적 함수를 갖는 Safe RL 알고리즘에 ADRC-라그랑주 업데이트를 통합하기 위한 실용적 측면을 설명합니다.

실험 결과

연구 질문

RQ1ADRC 기반 라그랑주 업데이트가 고전적 및 PID 접근 방식에 비해 Safe RL에서 진동 및 위상지연을 감소시킬 수 있는가?
RQ2ADRC-라그랑주 방법이 매개변수 변화에 강하고 다양한 Safe RL 알고리즘 및 환경에 적응 가능한가?
RQ3ADRC 기반 업데이트가 기존 라그랑주 방법을 일반화하고 학습 안정성 및 제약 만족도에 어떤 영향을 미치는가?
RQ4표준 Safe RL 벤치마크에서 수렴 시 ADRC-라그랑주 성능은 어떻게 비교되는가?
RQ5ADRC-라그랑주가 라그랑주 기반 접근법을 넘어 최첨단 Safe RL 방법과 경쟁할 수 있는가?

주요 결과

ADRC-라그랑주 방법은 제약 위반률을 최대 74%까지 감소시킵니다.
위반 크기를 최대 89%까지 낮춥니다.
평균 비용은 최대 67% 감소하면서 보상이 경쟁력을 유지합니다.
고전적 및 PID 라그랑주 업데이트가 ADRC 프레임워크의 특수한 경우임이 입증됩니다.
환경에 독립적인 안정적 비모듈 업데이트를 보장하는 ESO 게인에 대한 이론적 하한을 제공합니다.
OmniSafe 벤치마크에 대한 실험 결과가 다중 알고리즘 및 과제에서 더 부드러운 승수 다이내믹스와 향상된 안전성을 보여줍니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.