[논문 리뷰] Improving Black-box Adversarial Attacks with a Transfer-based Prior
본 논문은 프라이어-가이드된 랜덤 그래디언트-프리(P-RGF) 방법을 도입하여 전달 기반 대리 기울기와 쿼리 피드백을 결합해 더 쿼리 효율적인 블랙박스 적대적 공격을 구현한다. 대리 기울기의 가중치를 조정하는 최적의 결합 계수를 도출하고, 모델 및 방어에 걸쳐 공격 성공률이 우수하고 쿼리 수가 더 적은 것을 입증한다.
We consider the black-box adversarial setting, where the adversary has to generate adversarial perturbations without access to the target models to compute gradients. Previous methods tried to approximate the gradient either by using a transfer gradient of a surrogate white-box model, or based on the query feedback. However, these methods often suffer from low attack success rates or poor query efficiency since it is non-trivial to estimate the gradient in a high-dimensional space with limited information. To address these problems, we propose a prior-guided random gradient-free (P-RGF) method to improve black-box adversarial attacks, which takes the advantage of a transfer-based prior and the query information simultaneously. The transfer-based prior given by the gradient of a surrogate model is appropriately integrated into our algorithm by an optimal coefficient derived by a theoretical analysis. Extensive experiments demonstrate that our method requires much fewer queries to attack black-box models with higher success rates compared with the alternative state-of-the-art methods.
연구 동기 및 목표
- 블랙박스 적대적 공격의 비효율성(제한된 정보로 인한 기울기 추정)을 동기화하고 해결한다.
- 대리 화이트박스 모델에서의 전달 기반 프라이어를 활용하여 기울기 추정을 개선한다.
- 전이 기울기를 난수 추정치와 융합하기 위한 최적 계수(결합 상수)를 도출한다.
- 프라이어를 쿼리 피드백과 결합하면 공격 성공률이 높아지고 쿼리 수가 감소하는 것을 보여준다.
- 이미지넷에서 일반 모델과 방어 모델에 대해 강건성을 입증한다.
제안 방법
- 프라이어-가이드된 랜덤 그래디언트-프리(P-RGF)를 제안하며, 대리 모델의 전달 그래디언트로부터의 편향된 무작위 그래디언트 방향을 유도한다.
- 진짜 그래디언트와 스케일링된 추정치 간의 최소 제곱 거리로 그래디언트 추정 손실을 모델링하고 스케일 b를 최적화한다.
- 샘플링 분포 C = λ v v^T + ((1−λ)/(D−1))(I−v v^T)에서 전달 그래디언트 v를 가중하는 최적 혼합 매개변수 λ*를 도출한다.
- 전달 그래디언트와 실제 그래디언트 사이의 코사인 유사도 α와 쿼리 예산 q(및 차원 D)의 함수로 λ*의 닫힌 형태 해를 제공한다.
- α를 추정하는 실용적 절차(유한 차분법 이용)와 q개의 쿼리에 대해 편향된 무작위 방향 u_i를 샘플링하는 방법을 제시한다.
- P-RGF에 데이터 의존 프라이어를 포함하도록 V 서브스페이스 프로젝션을 통합하고 해당 λ*를 도출한다(투영된 그래디언트 파워를 A^2로 표현).
- ℓ2 공격에서 ImageNet에 대해 Inception-v3 대리 모델로 접근하며 NES, Bandits, AutoZoom, 표준 RGF와 비교를 통해 접근의 효과를 시연한다.
실험 결과
연구 질문
- RQ1전이 기반 프라이어를 최적으로 가중화하여 블랙박스 공격에서 그래디언트 추정이 향상될 수 있는가?
- RQ2전달 지침과 무작위 탐색의 균형을 맞추기 위해 최적의 결합 계수 λ*를 어떻게 계산하는가?
- RQ3데이터 의존 프라이어를 결합하면 쿼리 수를 더 줄이면서도 공격 성공을 유지할 수 있는가?
- RQ4P-RGF의 이점은 다양한 대상 모델과 방어 메커니즘에서 일관되는가?
주요 결과
| 방법 | Inception-v3 ASR | Inception-v3 평균 쿼리 수 | VGG-16 ASR | VGG-16 평균 쿼리 수 | ResNet-50 ASR | ResNet-50 평균 쿼리 수 |
|---|---|---|---|---|---|---|
| NES | 95.5% | 1718 | 98.7% | 1081 | 98.4% | 969 |
| Bandits T | 92.4% | 1560 | 94.0% | 584 | 96.2% | 1076 |
| Bandits TD | 97.2% | 874 | 94.9% | 278 | 96.8% | 512 |
| AutoZoom | 85.4% | 2443 | 96.2% | 1589 | 94.8% | 2065 |
| RGF | 97.7% | 1309 | 99.8% | 749 | 99.6% | 673 |
| P-RGF (λ=0.5) | 96.5% | 1119 | 97.8% | 710 | 98.7% | 635 |
| P-RGF (λ=0.05) | 97.8% | 1021 | 99.7% | 624 | 99.3% | 511 |
| P-RGF (λ*) | 98.1% | 745 | 99.6% | 331 | 99.6% | 265 |
| RGF D | 99.1% | 910 | 100.0% | 372 | 99.7% | 429 |
| P-RGF D (λ=0.5) | 98.2% | 1047 | 99.7% | 634 | 99.5% | 552 |
| P-RGF D (λ=0.05) | 99.1% | 754 | 99.9% | 359 | 99.8% | 379 |
| P-RGF D (λ*) | 99.1% | 649 | 99.8% | 250 | 99.6% | 232 |
- P-RGF는 ℓ2 공격에서 Inception-v3, VGG-16 및 ResNet-50에 대해 최첨단 방법들보다 더 높은 공격 성공률과 더 적은 쿼리를 달성했다.
- 최적의 λ*은 코사인 유사도 α가 높을수록 증가하고 더 많은 쿼리 q가 주어질수록 감소하여 전달 프라이어에 더 많이 의존할 때의 시점을 확인해 준다.
- 적응형 λ*를 사용하는 것이 고정된 λ 값보다 우수하고 순수 전달 그래디언트 또는 균일한 무작위 그래디언트 추정보다 성능이 좋다.
- 데이터 의존 프라이어(D)를 전달 프라이어에 직교하도록 결합하면 성능이 추가로 향상되어 평균 쿼리 수가 더 감소한다.
- JPEG 압축, 무작위화, 가이드 보정형 디노이저 등 다양한 방어에서 P-RGF(데이터 프라이어 유무에 관계없이) 기법이 기준보다 높은 ASR과 낮은 쿼리 수를 보인다.
- 해당 방법은 그래디언트 추정의 효율성이 뛰어나며, 초기 최적화에서 대리 그래디언트에 대한 편향 적응이 가장 이익이 크고, 이후에도 개선된 그래디언트 추정을 통해 도움이 된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.