[논문 리뷰] Tactics of Adversarial Attack on Deep Reinforcement Learning Agents
논문은 심층 강화학습 에이전트에 대한 두 가지 적대적 공격 전술을 도입한다: 관찰을 일부 스텝에서 perturb하는 전략적으로 타이밍된 공격과 에나칸팅(Enchanting) 공격으로 에이전트를 목표 상태로 유도하도록 perturbations을 계획한다. 평가 대상은 A3C와 DQN으로 다섯 개의 Atari 게임에서.
We introduce two tactics to attack agents trained by deep reinforcement learning algorithms using adversarial examples, namely the strategically-timed attack and the enchanting attack. In the strategically-timed attack, the adversary aims at minimizing the agent's reward by only attacking the agent at a small subset of time steps in an episode. Limiting the attack activity to this subset helps prevent detection of the attack by the agent. We propose a novel method to determine when an adversarial example should be crafted and applied. In the enchanting attack, the adversary aims at luring the agent to a designated target state. This is achieved by combining a generative model and a planning algorithm: while the generative model predicts the future states, the planning algorithm generates a preferred sequence of actions for luring the agent. A sequence of adversarial examples is then crafted to lure the agent to take the preferred sequence of actions. We apply the two tactics to the agents trained by the state-of-the-art deep reinforcement learning algorithm including DQN and A3C. In 5 Atari games, our strategically timed attack reduces as much reward as the uniform attack (i.e., attacking at every time step) does by attacking the agent 4 times less often. Our enchanting attack lures the agent toward designated target states with a more than 70% success rate. Videos are available at http://yenchenlin.me/adversarial_attack_RL/
연구 동기 및 목표
- 심층 RL 에이전트가 적대적 섭동에 얼마나 취약한지 이해한다.
- 에이전트 보상을 감소시키면서 perturbations를 최소화하는 전술을 개발한다.
- 최신 딥 RL 알고리즘(A3C, DQN)에 대한 공격의 효과를 입증한다.
- 지정된 상태로 에이전트를 유도하기 위한 계획 기반 공격을 탐구한다.
제안 방법
- perturb 시점을 결정하기 위해 상대적 행동 선호 함수(relative action preference function)를 사용하는 전략적으로 타이밍된 공격을 정의한다.
- Carlini & Wagner 방법으로 perturbation을 제작하여 에이전트가 가장 선호하는 행동을 가장 비선호하는 것으로 뒤집는다.
- Γ 예산으로 전체 공격을 제한하고 보상 영향력을 균등한 공격과 비교 평가한다.
- 비디오 예측 모델과 계획 알고리즘을 결합한 매혹(매혹적) 공격을 도입하여 에이전트를 H 스텝에 걸쳐 목표 상태로 유인한다.
- 미래 상태 예측기 M을 사용하여 s_{t+H}^M = M(s_t, A_{t:t+H})을 추정하고 샘플링 기반 교차 엔트로피 방법으로 행동 시퀀스 A_{t:t+H}를 계획한다.
- A3C 및 DQN으로 Atari 게임(MsPacman, Pong, Seaquest, Qbert, ChopperCommand)을 평가한다.
실험 결과
연구 질문
- RQ1DQN과 A3C로 학습된 심층 RL 에이전트가 쉽게 탐지되지 않는 최소한의 perturbation으로 효과적으로 공격될 수 있는가?
- RQ2누적 보상을 감소시키는 데 있어 전략적으로 타이밍된 공격이 균등한 공격에 비해 얼마나 효과적인가?
- RQ3계획 기반 매혹적 공격이 신뢰할 수 있게 에이전트를 지정된 목표 상태로 유도할 수 있으며 어떤 조건에서 가능한가?
- RQ4이 두 가지 적대적 전술에 대한 강건성을 위한 방어 고려사항은 무엇인가?
주요 결과
- 전략적으로 타이밍된 공격은 평균적으로 약 25%의 시간 스텝에서 관찰을 섭동하면서도 균등 공격과 같은 보상 감소를 달성할 수 있다.
- 대부분의 게임에서 DQN 에이전트가 A3C보다 전략적으로 타이밍된 공격에 더 취약한 경향을 보인다.
- 매혹적 공격은 목표 상태로 에이전트를 유도하는 데 70% 이상 성공한다(여러 설정 및 게임에서).
- 예측 모델의 정확도 문제로 인해 다수의 무작위 적군이 있는 고확률성 환경에서는 매혹적 공격의 효과가 떨어진다.
- 본 연구는 최첨단 Deep RL 에이전트에 대한 두 가지 새로운 공격 벡터를 보여주고 잠재적 방어책을 논의한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.