[논문 리뷰] Exploring the Space of Black-box Attacks on Deep Neural Networks
이 논문은 모델 조회 출력물을 활용해 적대적 예제를 제작하는 Gradient Estimation 블랙박스 공격을 소개하며, MNIST와 CIFAR-10에서 화이트박스에 근접한 성능을 달성하고 전이 기반 블랙박스 방법을 능가하며, 효과적인 조회 감소 전략을 제시한다.
Existing black-box attacks on deep neural networks (DNNs) so far have largely focused on transferability, where an adversarial instance generated for a locally trained model can "transfer" to attack other learning models. In this paper, we propose novel Gradient Estimation black-box attacks for adversaries with query access to the target model's class probabilities, which do not rely on transferability. We also propose strategies to decouple the number of queries required to generate each adversarial sample from the dimensionality of the input. An iterative variant of our attack achieves close to 100% adversarial success rates for both targeted and untargeted attacks on DNNs. We carry out extensive experiments for a thorough comparative evaluation of black-box attacks and show that the proposed Gradient Estimation attacks outperform all transferability based black-box attacks we tested on both MNIST and CIFAR-10 datasets, achieving adversarial success rates similar to well known, state-of-the-art white-box attacks. We also apply the Gradient Estimation attacks successfully against a real-world Content Moderation classifier hosted by Clarifai. Furthermore, we evaluate black-box attacks against state-of-the-art defenses. We show that the Gradient Estimation attacks are very effective even against these defenses.
연구 동기 및 목표
- 전이 가능성에 의존하지 않고 모델 출력에 대한 조회 접근을 통해 블랙박스 어쟁의 위협을 동기 부여하고 정량화한다.
- Gradient Estimation 기반 공격을 개발하여 유한 차분으로 기울기를 근사한다.
- Adversarial 샘플 제작에 필요한 조회 수를 줄이면서 성공률을 유지한다.
- 최신 모델, defenses 및 실제 API(Clarifai)를 대상으로 공격 평가한다.
- 제로 조회 기반 baseline 및 전이 기반 블랙박스 공격에 대한 포괄적 비교를 제공한다.
제안 방법
- 대상 모델의 출력 확률에 접근하여 기울기를 유한 차분으로 근사하는 Gradient Estimation 공격을 제안한다.
- 두 가지 조회 감소 기법을 사용한다: random feature grouping과 PCA 기반 조회 감소로 차원을 축소한다.
- 교차 엔트로피 손실과 로짓 기반 손실을 사용하여 교란을 유도한다.
- 단일 단계와 반복적 변형(IFD-xent, IFD-logit, IFD-xent-T, IFD-logit-T)을 개발하여 높은 성공률을 달성한다.
- 제로 조회 기반 대조군, 전이 기반 공격, 그리고 화이트박스 기준선과 MNIST 및 CIFAR-10에서 비교한다.
- 실제 API(Clarifai NSFW/Content Moderation) 및 방어에 적용 가능성을 입증한다.
실험 결과
연구 질문
- RQ1블랙박스 adversaries가 로컬 대리 모델을 학습하지 않고도 높은 공격 성공률을 달성할 수 있는가?
- RQ2조회 출력에서 기울기 정보를 얼마나 효과적으로 추정하여 적대적 예제를 생성할 수 있는가?
- RQ3조회 감소 전략이 이미지에 대한 고차원 기울기 추정을 실용적으로 만드는가?
- RQ4Gradient Estimation 공격은 현대의 방어 및 실세계 MLaaS 서비스에 대해 강건한가?
주요 결과
- Gradient Estimation 공격은 단일 단계 및 반복 설정에서 MNIST 및 CIFAR-10에서 화이트박스 공격 성능과 일치한다.
- 반복적 Gradient Estimation 공격(IFD-*)은 모든 모델과 데이터셋에서 100%의 적대적 성공을 달성한다.
- 단일 단계 Gradient Estimation with logit loss (FD-logit) 은 로짓 손실로 화이트박스 FGSM과 자주 일치하며 훨씬 적은 조회 수를 필요로 한다(단일 단계의 경우 대략 200–800회; 반복적은 약 8,000회).
- 조회 감소 방법(랜덤 그룹화, PCA 기반)은 성공률의 큰 손실 없이 조회 수를 크게 줄인다.
- 공격은 표준, 앙상블 및 반복적 훈련 방어에 대해 여전히 높은 효과를 보이며, 실제 Clarifai NSFW/Content Moderation 모델에서도 ~200회 조회로 입증되었다.
- 전이 기반 블랙박스 공격에 비해 Gradient Estimation 접근법은 공격 성공에서 상당히 우수하며 변형은 유사하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.