[논문 리뷰] Subspace Attack: Exploiting Promising Subspaces for Query-Efficient Black-box Attacks
논문은 Subspace Attack을 제안하며, 참조 모델 세트의 그래디언트를 사용해 저차원 부분공간을 정의해 제로차 gradient 추정에 활용하고, 이전의 블랙박스 공격에 비해 쿼리 효율성을 크게 향상시킵니다. 드롭아웃 기반의 사전 그래디언트는 성능을 더욱 개선하여 서로 다른 학습 데이터가 겹치지 않는 경우에도 효과적인 공격이 가능하게 합니다.
Unlike the white-box counterparts that are widely studied and readily accessible, adversarial examples in black-box settings are generally more Herculean on account of the difficulty of estimating gradients. Many methods achieve the task by issuing numerous queries to target classification systems, which makes the whole procedure costly and suspicious to the systems. In this paper, we aim at reducing the query complexity of black-box attacks in this category. We propose to exploit gradients of a few reference models which arguably span some promising search subspaces. Experimental results show that, in comparison with the state-of-the-arts, our method can gain up to 2x and 4x reductions in the requisite mean and medium numbers of queries with much lower failure rates even if the reference models are trained on a small and inadequate dataset disjoint to the one for training the victim model. Code and models for reproducing our results will be made publicly available.
연구 동기 및 목표
- 블랙박스 적대적 공격에서 피해 모델에 대한 제한된 접근 하에 쿼리 복잡도 감소를 동기 부여한다.
- 참조 모델의 그래디언트를 활용하는 부분공간 기반 그래디언트 추정 방법을 제안한다.
- 유망한 부분공간으로의 탐색 제약이 쿼리 효율성을 개선하면서 실패율을 낮게 유지하는지 보여준다.
- 좌표 하강 및 드롭아웃/레이어 등의 실용 기술을 통해 효율성과 탐색성을 향상시킨다.
제안 방법
- 일련의 참조 모델로부터의 그래디언트(사전 그래디언트)로 저차원 부분공간을 구성한다.
- 부분공간 내에서 Bandit 유사 제로차 업데이트를 사용해 PGD 스타일 공격의 그래디언트 방향을 추정한다.
- 여러 사전 그래디언트가 가능할 때 계산 부담을 줄이기 위해 좌표-하강식 최적화를 도입한다.
- 참조 모델에 드롭아웃/레이어 기법을 적용해 다양한 사전 그래디언트를 생성하고 부분공간 정렬을 향상시킨다.
- 부분공간 내에서 추정 그래디언트의 부호를 따라 업데이트하고 l-infinity 예산으로 클리핑해 반복적으로 공격 예시를 제작한다.
실험 결과
연구 질문
- RQ1여러 참조 모델의 그래디언트 정보를 어떻게 활용해 블랙박스 공격용 저차원 부분공간을 정의할 수 있는가?
- RQ2사전 그래디언트로 구성된 부분공간으로 공격을 한정하면 쿼리 수가 줄어들면서 공격 성공률은 유지되는가?
- RQ3좌표-하강 최적화 및 드롭아웃 기반 사전이 Subspace 공격의 실용성과 강건성을 향상시키는가?
- RQ4다양한 피해자/참조 모델 조합에서 CIFAR-10과 ImageNet에서 방법의 성능은 어떤가?
- RQ5참조 모델의 수와 선택이 공격 효율성에 어떤 영향을 미치는가?
주요 결과
| 데이터셋 | 피해 모델 | 방법 | 참조 모델들 | 평균 쿼리 수 | 중간값 쿼리 수 | 실패율 |
|---|---|---|---|---|---|---|
| CIFAR-10 | WRN | NES [13] | - | 1882 | 1300 | 3.5% |
| CIFAR-10 | WRN | Bandits-TD [14] | - | 713 | 266 | 1.2% |
| CIFAR-10 | WRN | Ours | AlexNet+VGGNets | 392 | 60 | 0.3% |
| CIFAR-10 | WRN | Ours | AlexNet+VGGNets | 250 | 58 | 0.0% |
| CIFAR-10 | WRN | Ours | AlexNet+VGGNets | 555 | 184 | 0.7% |
| ImageNet | Inception-v3 | NES [13] | - | 1427 | 800 | 19.3% |
| ImageNet | Inception-v3 | Bandits-TD [14] | - | 887 | 222 | 4.2% |
| ImageNet | Inception-v3 | Ours | Original ResNets | 462 | 96 | 1.1% |
| ImageNet | PNAS-Net | NES [13] | - | 2182 | 1300 | 38.5% |
| ImageNet | PNAS-Net | Bandits-TD [14] | - | 1437 | 552 | 12.1% |
| ImageNet | PNAS-Net | Ours | Original ResNets | 680 | 160 | 4.2% |
| ImageNet | SENet | NES [13] | - | 1759 | 900 | 17.9% |
| ImageNet | SENet | Bandits-TD [14] | - | 1055 | 300 | 6.4% |
| ImageNet | SENet | Ours | Original ResNets | 456 | 66 | 1.9% |
- 부분공간 공격은 CIFAR-10과 ImageNet에서 NES 및 Bandits-TD에 비해 평균 및 중앙값 쿼리 수를 대폭 감소시킨다.
- 여러 참조 모델로부터의 사전 그래디언트를 사용하면 피해 모델 그래디언트와의 부분공간 정렬이 무작위 부분공간보다 더 좋고 실패율이 낮아진다.
- 여러 사전 그래디언트를 사용하는 좌표-하강 방식은 전체 부분공간 업데이트와 비슷한 효과를 달성하되 계산 비용을 감소시킨다.
- 드롭아웃 기반의 사전은 탐색을 개선하고 실패율을 낮추면서도 과도한 쿼리 증가 없이 작동한다.
- 참조 모델이 서로 다른 데이터셋에서 학습되었거나 더 작은 데이터로 학습된 경우에도 방법은 강력한 공격 성능을 보이며 종종 기준선보다 우수하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.