[논문 리뷰] Robust Reinforcement Learning on State Observations with Learned Optimal Adversary
본 논문은 상태 관찰을 섭동하기 위해 온라인에서 강한 적대자를 학습하고 강건한 DRL 에이전트를 학습하는 교대 학습 프레임워크 ATLA를 소개하며, 연속 제어 과제에서 강한 적대자에 대해 최신 수준의 강건성을 보임을 보여준다.
We study the robustness of reinforcement learning (RL) with adversarially perturbed state observations, which aligns with the setting of many adversarial attacks to deep reinforcement learning (DRL) and is also important for rolling out real-world RL agent under unpredictable sensing noise. With a fixed agent policy, we demonstrate that an optimal adversary to perturb state observations can be found, which is guaranteed to obtain the worst case agent reward. For DRL settings, this leads to a novel empirical adversarial attack to RL agents via a learned adversary that is much stronger than previous ones. To enhance the robustness of an agent, we propose a framework of alternating training with learned adversaries (ATLA), which trains an adversary online together with the agent using policy gradient following the optimal adversarial attack framework. Additionally, inspired by the analysis of state-adversarial Markov decision process (SA-MDP), we show that past states and actions (history) can be useful for learning a robust agent, and we empirically find a LSTM based policy can be more robust under adversaries. Empirical evaluations on a few continuous control environments show that ATLA achieves state-of-the-art performance under strong adversaries. Our code is available at https://github.com/huanzhang12/ATLA_robust_RL.
연구 동기 및 목표
- RL의 상태 관찰이 적대적으로 섭동될 때의 강건성에 대한 동기를 부여한다.
- SA-MDP 프레임워크하에서 최적의 적대자를 특징짓고 이를 온라인으로 학습할 수 있음을 보인다.
- 강력한 적대자와 강건한 에이전트를 함께 학습하는 ATLA를 제안한다.
- 섭동에 대한 강건한 정책 학습에서 히스토리(기억)의 역할을 탐구하고 연속 제어 과제에서 평가한다.
제안 방법
- 상태 관찰 섭동을 SA-MDP로 모델링하고 고정된 정책에 대해 최적의 적대자를 도출한다.
- 최적의 적대자 학습을 DRL 문제로 형상화하고 정책 기울기(PPO)로 학습한다.
- 알고리즘 1을 제안하여 온라인으로 학습된 적대자를 섭동 집합 B(s)로 투영하면서 훈련한다.
- 알고리즘 2 (ATLA)를 제안하여 적대자 최적화와 에이전트 최적화 간의 교대 업데이트를 수행한다.
- 히스토리를 활용해 섭동에 대한 강건성을 확보하기 위해 LSTM 기반 정책을 사용한다.
- 적대자가 고정되었을 때 SA-MDP와 POMDP 간의 이론적 연계를 제공한다.
실험 결과
연구 질문
- RQ1제한된 관찰 섭동 하에서 에이전트의 보상을 최소화하는 최적의 적대자를 계산하거나 근사화할 수 있는가?
- RQ2학습된 적대자와의 교대 학습이 기존의 적대적 학습과 비교하여 DRL 에이전트의 강건성을 향상시키는가?
- RQ3상태 섭동 하에서 히스토리(메모리)가 강건한 RL에 유익한가, 그리고 순환 정책이 도움이 될 수 있는가?
- RQ4 ATLA가 강력한 적대 섭동 하에서 연속 제어 과제에서 기존의 강건성 방법들과 비교하여 어떤 차이를 보이는가?
주요 결과
| 환경 | ε (perturbation budget) | Method | Natural Reward | Attack Reward | Critic | Random | MAD | Snooping | RS | Optimal |
|---|---|---|---|---|---|---|---|---|---|---|
| PPO | 0.0 | PPO | 3167 ± 521 | 636 ± 9 | 1464 ± 523 | 2101 ± 793 | 1410 ± 655 | 2234 ± 1103 | 794 ± 238 | 636 ± 9 |
| Hopper | 0.075 | SA-PPO | 3705 ± 2 | 1076 ± 791 | 2710 ± 801 | 2652 ± 835 | 2509 ± 838 | 1130 ± 42 | 1076 ± 791 | 1076 ± 791 |
| PPO | 0. Mau | PPO | 4472 ± 635 | 1086 ± 516 | 3424 ± 1295 | 3007 ± 1200 | 2869 ± 1271 | 2786 ± 962 | 1336 ± 654 | 1086 ± 516 |
| Walker2d | 0.05 | SA-PPO | 4487 ± 61 | 2511 ± 1117 | 4867 ± 39 | 3668 ± 1789 | 3928 ± 1661 | 388? | 2908 ± 1136 | 2908 ± 1136 |
| Ant | 0.15 | PPO | 7117 ± 98 | -660 ± 218 | -? | -? | -? | -? | -660 ± 218 | |
| HalfCheetah | 0.15 | SA-PPO | 3632 ± 20 | 3283 ± 20 | 3619 ± 18 | 3624 ± 23 | 3616 ± 21 | 3283 ± 20 | 3028 ± 23 | 3028 ± 23 |
- 학습된 적대자는 기존 공격보다 훨씬 강력한 섭동을 생성하여 에이전트 보상을 더 효과적으로 감소시킨다.
- ATLA는 여러 연속 제어 과제에서 강력한 적대자 하에 최첨단 성능의 강건성을 향상시킨다.
- LSTM 기반 정책은 SA-MDP/ATLA 설정에서 피드포워드 정책보다 더 큰 강건성을 보인다.
- ATLA는 함수 근사기에 대한 명시적 정규화와 보완적으로 작용하는 강건성 이점을 제공한다.
- 최적의 적대자 학습은 에이전트의 정책 기울기에 접근할 필요가 없으며(블랙박스 적대자),
- 실험 결과 ATLA가 몇몇 환경에서 명시적 정규화 방법보다 우수한 성능을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.