[논문 리뷰] Simple Black-Box Adversarial Perturbations for Deep Networks
본 논문은 심층 CNN이 블랙박스 기반의 적대적 섭동에 취약하다는 것을 보여주며, 모델 매개변수에 접근하지 않고도 아주 적은 수의 픽셀을 섭동하여 잘못 분류된 이미지를 구성합니다. 블랙박스 위협 모델 하에서 무작위 픽셀 공격과 탐욕적 로컬 탐색 접근법을 도입하여 적대적 예제를 생성합니다.
Deep neural networks are powerful and popular learning models that achieve state-of-the-art pattern recognition performance on many computer vision, speech, and language processing tasks. However, these networks have also been shown susceptible to carefully crafted adversarial perturbations which force misclassification of the inputs. Adversarial examples enable adversaries to subvert the expected system behavior leading to undesired consequences and could pose a security risk when these systems are deployed in the real world. In this work, we focus on deep convolutional neural networks and demonstrate that adversaries can easily craft adversarial examples even without any internal knowledge of the target network. Our attacks treat the network as an oracle (black-box) and only assume that the output of the network can be observed on the probed inputs. Our first attack is based on a simple idea of adding perturbation to a randomly selected single pixel or a small set of them. We then improve the effectiveness of this attack by carefully constructing a small set of pixels to perturb by using the idea of greedy local-search. Our proposed attacks also naturally extend to a stronger notion of misclassification. Our extensive experimental results illustrate that even these elementary attacks can reveal a deep neural network's vulnerabilities. The simplicity and effectiveness of our proposed schemes mean that they could serve as a litmus test for designing robust networks.
연구 동기 및 목표
- 상태-오브-더-아트(CNN)들의 블랙박스 적대적 공격에 대한 취약성 평가를 오로겐(oracle) 접근으로 수행한다.
- 단일 픽셀 또는 작은 픽셀 집합의 섭동이 잘못된 분류를 유발할 수 있음을 입증한다.
- 필요한 섭동을 줄이기 위해 탐욕적 로컬-탐색 기반의 공격을 개발하고 평가한다.
- 진짜 레이블이 상위-k 예측 밖에 위치하도록 k-오류 분류(k-misclassification)로 공격을 확장한다.
제안 방법
- 네트워크를 오로겐으로 간주하고 탐지된 입력에 대한 출력을 관찰한다.
- 부호 보존 섭동(sign-preserving perturbations)으로 단일 픽셀(또는 작은 집합)을 섭동하는 것을 조사한다.
- 섭동 시 잘못 분류를 일으킬 수 있는 임계 픽셀과 임계 집합을 정의한다.
- RandAdv: 임계 픽셀의 비율을 추정하기 위한 무작위 픽셀 섭동 방법을 제안한다.
- 그리디 로컬-탐색 공격을 개발하여 적은 수의 픽셀을 섭동하고 실제 라벨이 상위-k 예측에 남아 있을 확률을 최소화한다.
- 고해상도 이미지에 대해 픽셀 집합(예: 50 픽셀) 및 더 큰 섭동으로 접근 방식을 확장한다.
실험 결과
연구 질문
- RQ1블랙박스 적대적 adversary가 단일 픽셀 또는 매우 작은 픽셀 집합만 섭동하여 잘못된 분류를 유발할 수 있는가?
- RQ2섭동 크기가 임계 픽셀의 존재성과 탐지 가능성에 어떤 영향을 미치는가?
- RQ3블랙박스 접근 하에서 탐욕적 로컬-탐색 전략이 제한된 섭동으로도 효과적인 적대 사례를 생성할 수 있는가?
- RQ4블랙박스 위협 모델에서 k-오류 분류를 달성할 수 있는가?
주요 결과
- 무작위로 선택된 단일 픽셀 섭동만으로도 많은 데이터셋에서 자주 잘못 분류를 유발할 수 있다.
- 섭동 크기를 증가시키면 임계 픽셀의 비율과 RandAdv의 성공률이 증가한다.
- 고해상도 이미지의 경우 약 50 픽셀 정도를 섭동하는 것이 효과적으로 적대적 예제를 생성할 수 있다.
- 그리디 로컬-탐색 접근은 네트워크 그래디언트에 대한 접근 없이도 작은 섭동으로 적대적 이미지를 산출한다.
- attack은 k-오류 분류를 달성할 수 있으며 실제 라벨이 상위-k 예측 밖에 위치하도록 보장한다.
- ImageNet1000에서 이 접근은 평균적으로 약 0.5%의 픽셀만을 섭동한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.