Skip to main content
QUICK REVIEW

[논문 리뷰] Robust Adversarial Reinforcement Learning

Lerrel Pinto, James Davidson|arXiv (Cornell University)|2017. 03. 08.
Adversarial Robustness in Machine Learning참고 문헌 29인용 수 383
한 줄 요약

RARL은 불안정한 적대자가 작용하는 상황에서 주인공을 학습시켜 다양한 조건에서 더 잘 일반화되는 강건한 정책을 생성하는 미니맥스 목표를 형성합니다.

ABSTRACT

Deep neural networks coupled with fast simulation and improved computation have led to recent successes in the field of reinforcement learning (RL). However, most current RL-based approaches fail to generalize since: (a) the gap between simulation and real world is so large that policy-learning approaches fail to transfer; (b) even if policy learning is done in real world, the data scarcity leads to failed generalization from training to test scenarios (e.g., due to different friction or object masses). Inspired from H-infinity control methods, we note that both modeling errors and differences in training and test scenarios can be viewed as extra forces/disturbances in the system. This paper proposes the idea of robust adversarial reinforcement learning (RARL), where we train an agent to operate in the presence of a destabilizing adversary that applies disturbance forces to the system. The jointly trained adversary is reinforced -- that is, it learns an optimal destabilization policy. We formulate the policy learning as a zero-sum, minimax objective function. Extensive experiments in multiple environments (InvertedPendulum, HalfCheetah, Swimmer, Hopper and Walker2d) conclusively demonstrate that our method (a) improves training stability; (b) is robust to differences in training/test conditions; and c) outperform the baseline even in the absence of the adversary.

연구 동기 및 목표

  • 실제 환경에서의 RL에서 시뮬레이션-실제 간 차이와 데이터 부족 문제를 다루기 위한 강건한 정책 학습의 필요성 동기화.
  • 훈련 중에 적용되는 적대적 교란으로 불확실성을 모델링.
  • 제로섬 게임에서 주인공과 강화된 적대자를 함께 학습시켜 강건성 향상.
  • 다양한 제어 작업에서 환경 변화에 대한 안정성과 강건성, 미지의 설정으로의 전이 향상 demonstrating를 입증합니다.

제안 방법

  • 주인공과 적대자를 두 플레이어로 하는 0-합 마코프 게임으로 정책 학습을 형식화합니다.
  • 적대자를 고정한 상태에서 주인공을 학습시키고, 주인공을 고정한 상태에서 적대자를 학습시키는 교대 최적화 절차를 사용합니다.
  • 적대자는 미리 정의된 시점에 교란을 적용하여 정책의 강건성을 시험하는 어려운 궤적을 유도합니다.
  • 적대자 정책은 중단을 최대화하도록 학습되어 최악의 경우 궤적을 샘플링합니다.
  • 정책 업데이트는 신경망 함수 근사기를 활용한 TRPO를 사용합니다.

실험 결과

연구 질문

  • RQ1적대적 교란 모델이 모델링 오류 및 테스트 시 변동성에 대한 RL 정책의 강건성을 향상시킬 수 있는가?
  • RQ2강화된 적대자를 공동으로 학습시키면 질량, 마찰 및 초기화가 다른 상황에 일반화되는 정책이 더 잘 생성되는가?
  • RQ3RARL의 성능은 적대적 교란 및 변경된 테스트 조건하에서 일반적으로 표준 RL 베이스라인(TRPO 등)과 비교해 어떠한가?

주요 결과

과제BaselineRARL
InvertedPendulum1000±0.01000±0.0
HalfCheetah5093±445444±97
Swimmer358±2.4354±1.5
Hopper3614±2.163590±7.4
Walker2d5418±875854±159
  • RARL은 HalfCheetah, Swimmer, Hopper, Walker2d에서 TRPO에 비해 평균 보상과 초기화 간 분산이 더 작게 나타납니다.
  • 적대적 교란 하에서 RARL 학습 정책은 베이스라인보다 더 강건하게 남아 있으며 보상 분포 곡선이 더 높게 유지됩니다.
  • RARL로 학습된 정책은 질량과 마찰의 변화에 대해 베이스라인 정책보다 더 잘 일반화합니다.
  • 시각화 결과 적대자는 직관적인 힘들을 적용하여 시스템을 불안정하게 만드는 경향이 있으며 이는 물리적 도전과 일치합니다.
  • 표 1은 평균 보상(± SD)을 보고하며 RARL이 대부분의 과제(InvertedPendulum, HalfCheetah, Swimmer, Hopper, Walker2d)에서 베이스라인과 일치하거나 능가하는 경향을 보입니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.