QUICK REVIEW

[논문 리뷰] Targeted Attacks on Deep Reinforcement Learning Agents through Adversarial Observations.

Léonard Hussenot, Matthieu Geist|arXiv (Cornell University)|2019. 05. 29.

Adversarial Robustness in Machine Learning참고 문헌 4인용 수 9

한 줄 요약

이 논문은 복제된 강화학습 에이전트를 조작하기 위해 내부 상태 대신 관측값을 수정하는 타겟팅된 적대적 공격인 CopyCAT을 소개한다. 이 공격는 사전에 계산되며, 에이전트의 환경 표현을 직접 수정할 수 없는 읽기 전용 환경에서 효율적이고 효과적으로 작동하여, 아케이드 2600 게임에서 에이전트가 외부 정책을 따르도록 유도하는 데 성공한다.

ABSTRACT

We propose a new perspective on adversarial attacks against deep reinforcement learning agents. Our main contribution is CopyCAT, a targeted attack able to consistently lure an agent into following an outsider's policy. It is pre-computed, therefore fast inferred, and could thus be usable in a real-time scenario. We show its effectiveness on Atari 2600 games in the novel read-only setting. In this setting, the adversary cannot directly modify the agent's state -- its representation of the environment -- but can only attack the agent's observation -- its perception of the environment. Directly modifying the agent's state would require a write-access to the agent's inner workings and we argue that this assumption is too strong in realistic settings.

연구 동기 및 목표

기존의 적대적 공격가 내부 상태에 왈접근이 필요하다는 한계를 해결하기 위해.
에이전트의 내부 표현을 수정하지 않고도 관측값(환경에 대한 인식)에만 영향을 주는 공격을 개발하기 위해.
엄격한 제약 조건 하에서도 특정 외부 정책으로 에이전트를 유도할 수 있는 타겟팅된 공격을 가능하게 하기 위해.
실시간 배포에 적합한 효율적이고 사전에 계산된 공격을 설계하기 위해.

제안 방법

공격는 에이전트의 정책이 목표 행동으로 향하도록 유도하는 변형을 최적화하여 적대적 관측값을 생성한다.
각 상태에 대한 최적의 변형을 인코딩한 사전에 계산된 공격 맵을 활용하여, 배포 시 빠른 추론을 가능하게 한다.
공격자는 에이전트의 내부 상태나 정책 파라미터를 수정할 수 없는 읽기 전용 설정에서 작동한다.
변형이 에이전트의 정책 역학에 어떻게 영향을 주는지 시뮬레이션하기 위해 미분 가능한 환경 모델을 사용한다.
공격는 타겟팅된 최적화 문제로 공식화되며, 에이전트의 행동과 목표 정책 간의 발산을 최소화한다.
관측 스트림만 조작 가능한 현실적인 시나리오에서 평가되며, 실제 세계의 인지 간섭을 모방한다.

실험 결과

연구 질문

RQ1공격자가 에이전트의 내부 상태 대신 관측값만 수정할 수 있는 제한된 조건에서 적대적 공격가 효과적일 수 있는가?
RQ2읽기 전용 환경에서 일관되게 에이전트를 목표 정책으로 이끄는 사전에 계산된, 추론이 빠른 공격를 설계할 수 있는가?
RQ3이러한 공격는 아케이드 2600 게임과 같은 복잡하고 고차원적인 환경에서 얼마나 효과적인가?
RQ4상태 대신 관측값을 변형할 때, 공격의 은폐성과 성공률 사이의 상충 관계는 어떠한가?

주요 결과

CopyCAT은 내부 상태 수정이 금지된 읽기 전용 환경에서 아케이드 2600 게임에서 딥 강화학습 에이전트를 목표 정책으로 성공적으로 유도한다.
공격는 타겟팅된 정책 모방에서 높은 성공률를 기록하며, 여러 게임에서 일관된 성능을 보여준다.
사전에 계산된 성격 덕분에 추론 속도가 매우 빠르며 실시간 응용에 적합하다.
공격자는 에이전트의 내부 상태나 정책 파rameter에 직접 액세스하거나 수정할 수 없음에도 불구하고, 이 방법은 효과성을 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.