[논문 리뷰] NATTACK: Learning the Distributions of Adversarial Examples for an Improved Black-Box Attack on Deep Neural Networks
NATTACK은 입력의 작은 영역 주위에 확률 분포를 학습하여 블랙박스 설정에서 적대적 예제를 만들고, 다양한 DNN들에서 백박스 방법과 견주어 성능을 보이며 여러 방어를 능가합니다.
Powerful adversarial attack methods are vital for understanding how to construct robust deep neural networks (DNNs) and for thoroughly testing defense techniques. In this paper, we propose a black-box adversarial attack algorithm that can defeat both vanilla DNNs and those generated by various defense techniques developed recently. Instead of searching for an "optimal" adversarial example for a benign input to a targeted DNN, our algorithm finds a probability density distribution over a small region centered around the input, such that a sample drawn from this distribution is likely an adversarial example, without the need of accessing the DNN's internal layers or weights. Our approach is universal as it can successfully attack different neural networks by a single algorithm. It is also strong; according to the testing against 2 vanilla DNNs and 13 defended ones, it outperforms state-of-the-art black-box or white-box attack methods for most test cases. Additionally, our results reveal that adversarial training remains one of the best defense techniques, and the adversarial examples are not as transferable across defended DNNs as them across vanilla DNNs.
연구 동기 및 목표
- DNN의 강력하고 보편적인 블랙박스 공격을 개발하여 DNN의 견고한 테스트를 촉진한다.
- 비연속 네트워크에서 그래디언트 추정을 피하고 공격 목적함수를 매끄럽게 하는 분포 기반 최적화 프레임워크를 제안한다.
- 일반 DNN과 방어된 DNN에 대한 효과를 시연하고, 적대적 예제의 전달 가능성을 분석한다.
- 대체 모델 공격의 유용성을 감소시키는 지식 공유를 통한 전달 가능성이 제한적임을 보인다.
제안 방법
- 입력 x 주변의 타원형 영역 S에 대한 확률 분포를 학습하는 적대적 공격으로 문제를 형식화한다.
- latent 샘플을 입력 공간으로 매핑하고 S에 투사하여 x′를 생성하는 변환 g를 정의한다.
- 평균 μ(및 대역폭 σ)의 NES(Neural Evolution Strategy) 영감을 받은 업데이트를 통해 분포 매개변수 θ에 대해 J(θ)=E[f(projS(g(z)))]를 최적화한다.
- 수렴 가속화를 위해 μ0를 초기화하는 회귀 네트워크를 사용한다.
- 오판 분류를 유도하기 위해 C&W 스타일 손실 f(x′)=max(0, log F(x′)y − maxc≠y log F(x′)c) 를 사용한다.
- ProjS(g(z))를 f에 흡수하여 목적식에 투영을 통합하고 그래디언트 추정 기반 방법보다 안정성을 높인다.
- 2개의 일반 DNN과 13개의 방어된 DNN에 대해 ZOO, QL, BPDA를 포함한 백박스 및 화이트박스 공격과 비교한다.
실험 결과
연구 질문
- RQ1단일의 보편적이고 그래디언트 프리 공격이 내부 모델 가중치에 접근하지 않고도 일반 DNN과 방어된 DNN를 모두 무력화할 수 있는가?
- RQ2로컬 입력 영역에 대한 분포를 학습하는 것이 직접적인 그래디언트 프리 최적화보다 더 강력한 적대적 생성을 가능하게 하는가?
- RQ3다양한 방어 및 데이터셋에 대해 NATTACK가 최첨단 블랙박스 및 화이트박스 공격에 비해 어떤 성능을 보이는가?
- RQ4블랙박스 방식으로 공격할 때 방어된 모델 간의 적대적 예제 전달 가능성은 일반 DNN 간보다 어떤가?
주요 결과
- NATTACK는 2개의 일반 DNN과 13개의 방어된 DNN에서 높은 공격 강도를 달성하여 다수의 최첨단 블랙박스 방법을 능가하고 많은 경우 화이트박스 접근에 버금가는 성능을 보인다.
- 13개의 방어에서 NATTACK은 보고된 프로토콜 하에 여섯 가지 방어에서 100% 공격 성공률을 달성하고 다섯 가지에서 90% 이상을 달성한다.
- QL과 비교했을 때 NATTACK은 특히 매끄러운 목적식, g(·)의 변수 변경, z-스코어 안정화의 이점을 활용하는 연구에서 성능이 향상됨이 입증된다.
- ImageNet 공격 시 회귀 초기화를 사용하면 런타임이 회귀 없이 약 71초에서 약 48초로 감소하고; CIFAR-10에서는 BPDA 공격이 약 30초 내외로 소요되며 NATTACK이 경쟁적인 시간대를 보인다.
- 적대적 학습은 여전히 가장 강한 방어 중 하나이며, 방어된 DNN 간의 적대적 예제 전달 가능성은 일반 DNN 간보다 약하므로 대체 모델 공격의 효용이 감소한다.
- NATTACK은 학습된 분포에서 샘플링하여 대규모 적대적 예제 세트를 생성하는 확장 가능한 프레임워크를 제공하므로 강인한 방어 학습에 도움을 줄 가능성이 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.