[논문 리뷰] Adversarial Policies: Attacking Deep Reinforcement Learning
공유 환경에서 작용하는 적대적 정책은 특히 고차원 설정에서 적대적이고 분포 밖 관측을 유도하여 고정된 피해자 RL 정책을 신뢰할 수 있게 패배시킬 수 있다. 이는 왜 작동하는지 분석하고 방어를 탐구한다.
Deep reinforcement learning (RL) policies are known to be vulnerable to adversarial perturbations to their observations, similar to adversarial examples for classifiers. However, an attacker is not usually able to directly modify another agent's observations. This might lead one to wonder: is it possible to attack an RL agent simply by choosing an adversarial policy acting in a multi-agent environment so as to create natural observations that are adversarial? We demonstrate the existence of adversarial policies in zero-sum games between simulated humanoid robots with proprioceptive observations, against state-of-the-art victims trained via self-play to be robust to opponents. The adversarial policies reliably win against the victims but generate seemingly random and uncoordinated behavior. We find that these policies are more successful in high-dimensional environments, and induce substantially different activations in the victim policy network than when the victim plays against a normal opponent. Videos are available at https://adversarialpolicies.github.io/.
연구 동기 및 목표
- 물리적으로 현실적인 위협 모델을 소개한다. 여기서 적대자가 제로합 Markov 게임에서 상대를 제어한다.
- 자기 플레이를 통해 학습된 최첨단 피해자를 안정적으로 이길 수 있는 adversarial policies의 존재를 입증한다.
- 적대적 정책이 관측을 조작하고 피해자 활성화를 변화시켜 실패를 일으키는 메커니즘을 분석한다.
- 관찰 차원의 역할을 조사하고 방어 가능성을 이해하기 위한 비교 실험(ablations)을 수행한다.
제안 방법
- 피해자와 공격자를 두-player Markov 게임의 플레이어로 모델링하되 피해자 정책은 고정한다. 공격자는 피해자의 정책이 다이나믹스에 포함된 상태에서 자신의 할인 보상을 극대화하는 RL 문제를 해결한다.
- 고정된 블랙박스 피해자를 상대로 Proximal Policy Optimization (PPO)을 사용하여 적대적 정책을 학습한다.
- 자기-정합 방식으로 학습된 공격자와 관절적 관측( proprioceptive observations )을 가진 제로합 시뮬레이션 로봇 환경(Kick and Defend, You Shall Not Pass, Sumo Humans, Sumo Ants)에서 공격자들을 평가한다.
- 공격자와의 승률을 중간 피해자에 대해 시간에 걸쳐 측정하고 baselines(Rand, Zero, Zoo 정책)와 비교한다.
- Gaussian Mixture Models 와 t-SNE를 이용해 피해자 활성화를 분석하고 공격자에 의해 야기된 분포 변화를 이해한다.
실험 결과
연구 질문
- RQ1공격자가 피해자의 관측을 직접 수정할 수 없는 다중 에이전트, 물리적으로 현실적인 RL 설정에서 적대적 정책이 존재하는가?
- RQ2자기 플레이를 통해 학습된 피해자에 대해 미리 학습된 Zoo 베이스라인보다 적대적 정책이 더 잘 작동할 수 있는가?
- RQ3관측 조작, 활성화 편이 등 어떤 메커니즘이 적대적 정책이 피해자를 이길 수 있게 만들며 관측 차원이 취약성에 어떤 영향을 미치는가?
- RQ4적대자에 대항하는 미세 조정 같은 방어가 공격을 완화할 수 있는가, 그러나 defended 피해자를 상대로 새로운 적대자가 여전히 이길 수 있는가?
주요 결과
- 적대적 정책이 여러 환경에서 피해자 정책을 안정적으로 이기며 종종 Zoo 베이스라인보다 높은 승률을 보인다.
- 적대자는 일반적으로 강한 대항자로 되기보다 자연스러운 적대적 관측을 만들어 피해자의 네트워크에서 분포 밖 활성화를 유도함으로써 이긴다.
- 관측 차원이 높아질수록 적대적 정책에 대한 취약성이 커진다(예: Sumo Humans가 Sumo Ants보다 더 취약).
- 적대자의 위치를 마스킹하는 것은 일반적인 상대에게는 악영향을 주지만 적대자에게는 이익을 주는 비전이 비대칭적 정책 상호작용을 보인다.
- 미세 조정은 특정 적대자에 대한 부분적 방어를 제공하지만 방어된 피해자를 상대로 새로 학습된 적대자는 여전히 성공할 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.