Skip to main content
QUICK REVIEW

[논문 리뷰] Targeted Attacks on Deep Reinforcement Learning Agents through Adversarial Observations.

Léonard Hussenot, Matthieu Geist|arXiv (Cornell University)|2019. 05. 29.
Adversarial Robustness in Machine Learning참고 문헌 4인용 수 9
한 줄 요약

이 논문은 복제된 강화학습 에이전트를 조작하기 위해 내부 상태 대신 관측값을 수정하는 타겟팅된 적대적 공격인 CopyCAT을 소개한다. 이 공격는 사전에 계산되며, 에이전트의 환경 표현을 직접 수정할 수 없는 읽기 전용 환경에서 효율적이고 효과적으로 작동하여, 아케이드 2600 게임에서 에이전트가 외부 정책을 따르도록 유도하는 데 성공한다.

ABSTRACT

We propose a new perspective on adversarial attacks against deep reinforcement learning agents. Our main contribution is CopyCAT, a targeted attack able to consistently lure an agent into following an outsider's policy. It is pre-computed, therefore fast inferred, and could thus be usable in a real-time scenario. We show its effectiveness on Atari 2600 games in the novel read-only setting. In this setting, the adversary cannot directly modify the agent's state -- its representation of the environment -- but can only attack the agent's observation -- its perception of the environment. Directly modifying the agent's state would require a write-access to the agent's inner workings and we argue that this assumption is too strong in realistic settings.

연구 동기 및 목표

  • 기존의 적대적 공격가 내부 상태에 왈접근이 필요하다는 한계를 해결하기 위해.
  • 에이전트의 내부 표현을 수정하지 않고도 관측값(환경에 대한 인식)에만 영향을 주는 공격을 개발하기 위해.
  • 엄격한 제약 조건 하에서도 특정 외부 정책으로 에이전트를 유도할 수 있는 타겟팅된 공격을 가능하게 하기 위해.
  • 실시간 배포에 적합한 효율적이고 사전에 계산된 공격을 설계하기 위해.

제안 방법

  • 공격는 에이전트의 정책이 목표 행동으로 향하도록 유도하는 변형을 최적화하여 적대적 관측값을 생성한다.
  • 각 상태에 대한 최적의 변형을 인코딩한 사전에 계산된 공격 맵을 활용하여, 배포 시 빠른 추론을 가능하게 한다.
  • 공격자는 에이전트의 내부 상태나 정책 파라미터를 수정할 수 없는 읽기 전용 설정에서 작동한다.
  • 변형이 에이전트의 정책 역학에 어떻게 영향을 주는지 시뮬레이션하기 위해 미분 가능한 환경 모델을 사용한다.
  • 공격는 타겟팅된 최적화 문제로 공식화되며, 에이전트의 행동과 목표 정책 간의 발산을 최소화한다.
  • 관측 스트림만 조작 가능한 현실적인 시나리오에서 평가되며, 실제 세계의 인지 간섭을 모방한다.

실험 결과

연구 질문

  • RQ1공격자가 에이전트의 내부 상태 대신 관측값만 수정할 수 있는 제한된 조건에서 적대적 공격가 효과적일 수 있는가?
  • RQ2읽기 전용 환경에서 일관되게 에이전트를 목표 정책으로 이끄는 사전에 계산된, 추론이 빠른 공격를 설계할 수 있는가?
  • RQ3이러한 공격는 아케이드 2600 게임과 같은 복잡하고 고차원적인 환경에서 얼마나 효과적인가?
  • RQ4상태 대신 관측값을 변형할 때, 공격의 은폐성과 성공률 사이의 상충 관계는 어떠한가?

주요 결과

  • CopyCAT은 내부 상태 수정이 금지된 읽기 전용 환경에서 아케이드 2600 게임에서 딥 강화학습 에이전트를 목표 정책으로 성공적으로 유도한다.
  • 공격는 타겟팅된 정책 모방에서 높은 성공률를 기록하며, 여러 게임에서 일관된 성능을 보여준다.
  • 사전에 계산된 성격 덕분에 추론 속도가 매우 빠르며 실시간 응용에 적합하다.
  • 공격자는 에이전트의 내부 상태나 정책 파rameter에 직접 액세스하거나 수정할 수 없음에도 불구하고, 이 방법은 효과성을 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.