[논문 리뷰] Wasserstein Robust Reinforcement Learning
WR2L은 참조 다이나믹스 주변의 epsilon-Wasserstein 제약이 있는 최소-최대 게임으로 강인한 강화학습을 형식화하고, 고차원 연속 과제에 대해 확장 가능한 제로 차수 해법을 제공한다.
Reinforcement learning algorithms, though successful, tend to over-fit to training environments hampering their application to the real-world. This paper proposes $ ext{W} ext{R}^{2} ext{L}$ -- a robust reinforcement learning algorithm with significant robust performance on low and high-dimensional control tasks. Our method formalises robust reinforcement learning as a novel min-max game with a Wasserstein constraint for a correct and convergent solver. Apart from the formulation, we also propose an efficient and scalable solver following a novel zero-order optimisation method that we believe can be useful to numerical optimisation in general. We empirically demonstrate significant gains compared to standard and robust state-of-the-art algorithms on high-dimensional MuJuCo environments.
연구 동기 및 목표
- Transition dynamics가 달라질 때 일반화 성능을 향상시키기 위한 RL의 강인성에 대한 동기 부여.
- 워터슈타인 제약이 있는 일반적인 최소-최대 프레임워크로 WR2L을 도입.
- 손으로 설계한 교란 모델 없이 연속 상태-행동 공간에서의 강인성 가능성.
- 다양한 파라미터 가능 다이나믹스에 대해 업데이트를 교대로 수행하는 확장 가능한 해법 제공.
제안 방법
- 강인 RL 목표를 max_theta min_phi E_tau~p_theta^phi[R_total(tau)]로 정의.
- 허용 가능한 상태 전이 교란을 참조 다이나믹스 P0 주변의 epsilon-Wasserstein 구역으로 제약.
- 정책 pi_theta와 교란 다이나믹스 phi를 매개화; 교대 최적화를 통해 해법.
- 제약을 실용적으로 만들기 위해 점별이 아닌 평균 Wasserstein 제약을 사용.
- 구조적 제약 내에서 phi를 효율적으로 업데이트하기 위한 이차 테일러 근사(Hessian) 기반의 근사 개발.
- 그래디언트가 이용 불가능할 때 다이나믹스를 업데이트하기 위한 제로-차원(gradient-free) 방식을 제시.
실험 결과
연구 질문
- RQ1연속 상태-행동 공간에서 모델 교란을 다루기 위해 강인 RL을 어떻게 구성할 수 있는가?
- RQ2Wasserstein 거리가 RL 전이에 대한 원리적이고 기하학적으로 인식된 강건성 제약을 제공할 수 있는가?
- RQ3명시적 다이나믹스 모델 없이도 결과 미니-맥스 문제를 효율적으로 해결할 수 있는가?
- RQ4제안된 WR2L 프레임워크가 고차원 제어 과제에서 강인성과 성능을 향상시키는가?
주요 결과
- WR2L은 표준 및 일부 강건한 베이스라인에 비해 고차원 MuJoCo 환경에서 의미 있는 강인한 성능 향상을 달성합니다.
- 알고리즘은 이산 및 연속 상태-행동 공간을 통합된 Wasserstein 기반 프레임워크 내에서 수용합니다.
- 그래디언트 정보를 필요로 하지 않는 확장 가능한 다이나믹 업데이트를 가능케 하는 새로운 제로-차원 최적화 방법.
- 이차(헤시안) 기반 제약 근사를 통해 참조 다이나믹스 주변의 epsilon-Wasserstein 구역에서의 실현 가능한 최적화를 가능하게 합니다.
- 이 접근 방식은 전체 다이나믹스 모델 학습을 필요로 하지 않으며, 매개변수화된 다이나믹스를 갖춘 미분 가능한 시뮬레이터나 솔버를 활용합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.