[논문 리뷰] Characterizing Attacks on Deep Reinforcement Learning
이 논문은 심층 RL 시스템에서 관찰 및 환경 다이나믹스 포함 현실적이고 효율적인 블랙박스 및 온라인 적대적 공격을 개발하고, 시뮬레이션 및 실제 로봇에서 이를 검증한다.
Recent studies show that Deep Reinforcement Learning (DRL) models are vulnerable to adversarial attacks, which attack DRL models by adding small perturbations to the observations. However, some attacks assume full availability of the victim model, and some require a huge amount of computation, making them less feasible for real world applications. In this work, we make further explorations of the vulnerabilities of DRL by studying other aspects of attacks on DRL using realistic and efficient attacks. First, we adapt and propose efficient black-box attacks when we do not have access to DRL model parameters. Second, to address the high computational demands of existing attacks, we introduce efficient online sequential attacks that exploit temporal consistency across consecutive steps. Third, we explore the possibility of an attacker perturbing other aspects in the DRL setting, such as the environment dynamics. Finally, to account for imperfections in how an attacker would inject perturbations in the physical world, we devise a method for generating a robust physical perturbations to be printed. The attack is evaluated on a real-world robot under various conditions. We conduct extensive experiments both in simulation such as Atari games, robotics and autonomous driving, and on real-world robotics, to compare the effectiveness of the proposed attacks with baseline approaches. To the best of our knowledge, we are the first to apply adversarial attacks on DRL systems to physical robots.
연구 동기 및 목표
- 현실적인 공격 설정에서 DRL의 취약점을 동기 부여하고 이해한다.
- 피해 모델 매개변수에 접근할 필요 없이 효율적인 블랙박스 적대적 공격을 개발한다.
- MDP의 시간적 구조를 활용하여 고처리량의 온라인 공격을 생성한다.
- 환경 다이나믹스의 섭동과 물리적 세계에서의 공격 강건성을 탐구한다.
- 강건한 물리적 섭동으로 실제 로봇에서 적대적 공격의 타당성을 입증한다.
제안 방법
- 경사 추정 비용을 줄이기 위해 적응 샘플링으로 FD 기반 블랙박스 공격을 조정하고 개선한다.
- 단일 섭동으로 다수 프레임을 공격하기 위해 시간적 일관성을 이용한 온라인 순차 공격을 제안한다.
- 공격 생성을 위한 중요한 프레임을 식별하는 프레임 선택 전략을 도입한다.
- 무작위 탐색과 RL 기반 다이나믹 탐색을 통해 환경 전이 다이나믹스를 겨냥한 공격을 개발한다.
- 견고한 인쇄 가능한 적대적 패치를 생성하고 실제 환경 조건에서 평가하여 물리적 로봇에 공격을 확장한다.
실험 결과
연구 질문
- RQ1DRL 설정에서 블랙박스 공격이 화이트박스/블랙박스 벤치마크와 같거나 이를 능가할 수 있는가?
- RQ2적응 샘플링(SFD)이 표준 유한 차분보다 그래디언트 추정 효율을 향상시키는가?
- RQ3온라인 순차 공격이 프레임당 공격에 비해 처리량과 효과를 향상시키는가?
- RQ4환경 다이나믹스에 대한 섭동이 DRL 에이전트에 대해 실현 가능하고 효과적인가?
- RQ5물리적 로봇 배치에서 적대적 패치가 강건할 수 있는가?
주요 결과
- 적응 샘플링과 유한 차분을 이용한 블랙박스 공격은 모델 아키텍처나 매개변수 접근 없이도 효과적일 수 있다.
- 온라인 순차 공격은 일부 작은 프레임에 섭동을 적용하고 이후 프레임에 섭동을 적용하여 높은 처리량을 달성한다.
- 무작위 탐색과 RL 기반 방법으로 환경 다이나믹스에 대한 공격이 벤치마크를 넘어 에이전트 성능을 저하시킬 수 있다.
- 실제 로봇 내비게이션 작업에서 프린팅 및 시점 변화에 강건하도록 물리적 적대적 패치를 설계할 수 있다.
- 실험은 Atari 게임, MuJoCo 제어 작업, TORCS 운전 시뮬레이션, 실제 로봇 실험에 걸쳐 화이트박스 및 기초 블랙박스 방법과 비교한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.