[논문 리뷰] Rethinking the Backward Propagation for Adversarial Transferability
논문은 비선형 계층에서의 그래디언트 절단이 적대적 예시의 전이 가능성에 해를 끼친다는 것과 이를 완화하기 위한 Backward Propagation Attack(BPA)를 제안하여 ReLU에 대해 SiLU 기반의 그래디언트, 최대 풀링에 대해 소프트맥스 기반의 그래디언트를 사용함으로써 모델 간 전이성과 공격 전이에 걸쳐 향상된 전이 가능성을 보여준다.
Transfer-based attacks generate adversarial examples on the surrogate model, which can mislead other black-box models without access, making it promising to attack real-world applications. Recently, several works have been proposed to boost adversarial transferability, in which the surrogate model is usually overlooked. In this work, we identify that non-linear layers (e.g., ReLU, max-pooling, etc.) truncate the gradient during backward propagation, making the gradient w.r.t. input image imprecise to the loss function. We hypothesize and empirically validate that such truncation undermines the transferability of adversarial examples. Based on these findings, we propose a novel method called Backward Propagation Attack (BPA) to increase the relevance between the gradient w.r.t. input image and loss function so as to generate adversarial examples with higher transferability. Specifically, BPA adopts a non-monotonic function as the derivative of ReLU and incorporates softmax with temperature to smooth the derivative of max-pooling, thereby mitigating the information loss during the backward propagation of gradients. Empirical results on the ImageNet dataset demonstrate that not only does our method substantially boost the adversarial transferability, but it is also general to existing transfer-based attacks. Code is available at https://github.com/Trustworthy-AI-Group/RPA.
연구 동기 및 목표
- 비선형 계층이 역전파 동안 그래디언트를 어떻게 절단하고 이는 적대적 예시의 전이 가능성에 해를 주는지 식별한다.
- 그래디언트 정보를 보존하고 교차 모델 전이 가능성을 향상시키기 위해 BPA를 제안한다.
- ImageNet에서 비타게된 공격 및 방어에 대해 BPA의 효과를 입증한다.
제안 방법
- 역전파 중 ReLU 및 max-pooling으로 인한 그래디언트 절단이 손실 입력 관련성을 저하시키는 것을 보인다.
- 절단을 완화하기 위해 BPA를 제안: a) ReLU 역전 파를 위해 SiLU의 도함수 사용; b) 최대 풀링의 도함수를 소프트맥스(온도)을 사용하여 계산.
- 변경된 그래디언트에 대한 형식화: ReLU 그래디언트를 SiLU 기반 도함수 ∂zi+1/∂zi = σ(zi) · (1 + zi · (1 − σ(zi)))로 대체; 각 윈도우 내에서 소프트맥스(온도 t)로 계산된 최대 풀링 도함수: ∂zk+1/∂zk = exp(t · zk,i,j) / sum_{υ∈w} exp(t · υ)
- ImageNet에서 다수의 대리 모델 및 취약 모델에 대해 BPA를 광범위한 실험으로 검증
- BPA를 기준 SGM, LinBP, Ghost와 비교하고 무작위 및 표적 공격 모두에서 전이성을 높임을 보여준다.
실험 결과
연구 질문
- RQ1비선형 계층에서의 그래디언트 절단이 서로 다른 모델 간 적대적 전이 가능성을 감소시키는가?
- RQ2그래디언트 정보를 보존하도록 역전파를 수정하면 적대적 예시의 전이 가능성을 향상시킬 수 있는가?
- RQ3ImageNet에서 비타깃 및 타깃 공격 및 방어에 대해 BPA는 어떻게 작동하는가?
주요 결과
| Attacker | Inc-v3 | IncRes-v2 | DenseNet | MobileNet | PNASNet | SENet | Inc-v3ens3 | Inc-v3ens4 | IncRes-v2ens | |
|---|---|---|---|---|---|---|---|---|---|---|
| PGD | N/A | 16.34 | 13.38 | 36.86 | 36.12 | 13.46 | 17.14 | 10.24 | 9.46 | 5.52 |
| SGM | 23.68 | 19.82 | 51.66 | 55.44 | 22.12 | 30.34 | 13.78 | 12.38 | 7.90 | |
| LinBP | 27.22 | 23.04 | 59.34 | 59.74 | 22.68 | 33.72 | 16.24 | 13.58 | 7.88 | |
| Ghost | 17.74 | 13.68 | 42.36 | 41.06 | 13.92 | 19.10 | 11.60 | 10.34 | 6.04 | |
| BPA | 35.36 | 30.12 | 70.70 | 68.90 | 32.52 | 42.02 | 22.72 | 19.28 | 12.40 | |
| MI-FGSM | N/A | 26.20 | 21.50 | 51.50 | 49.68 | 22.92 | 30.12 | 16.22 | 14.58 | 9.00 |
| SGM | 33.78 | 28.84 | 63.06 | 65.84 | 31.90 | 41.54 | 19.56 | 17.48 | 10.98 | |
| LinBP | 35.92 | 29.82 | 68.66 | 69.72 | 30.24 | 41.68 | 19.98 | 16.58 | 9.94 | |
| Ghost | 29.76 | 23.68 | 57.28 | 56.10 | 25.00 | 34.76 | 17.10 | 14.76 | 9.50 | |
| BPA | 47.58 | 41.22 | 80.54 | 79.40 | 44.70 | 54.28 | 32.06 | 25.98 | 17.46 | |
| ILA | N/A | 29.10 | 26.08 | 58.02 | 59.10 | 27.60 | 39.16 | 15.12 | 12.30 | |
| SGM | 35.64 | 32.34 | 65.20 | 71.22 | 34.20 | 46.72 | 17.10 | 13.86 | 9.08 | |
| LinBP | 37.36 | 34.24 | 71.98 | 72.84 | 35.12 | 48.80 | 19.38 | 14.10 | 9.28 | |
| Ghost | 30.06 | 26.50 | 60.52 | 61.74 | 28.68 | 40.46 | 14.84 | 12.54 | 7.90 | |
| BPA | 47.62 | 43.50 | 81.74 | 80.88 | 47.88 | 60.64 | 27.94 | 20.64 | 14.76 | |
| SSA | N/A | 35.78 | 29.58 | 60.46 | 64.70 | 25.66 | 34.18 | 20.64 | 17.30 | |
| SGM | 45.22 | 38.98 | 70.22 | 78.44 | 35.30 | 46.06 | 26.28 | 21.64 | 14.50 | |
| LinBP | 48.48 | 41.90 | 75.02 | 78.30 | 36.66 | 49.58 | 28.76 | 23.64 | 15.46 | |
| Ghost | 36.44 | 28.62 | 61.12 | 66.80 | 24.90 | 33.98 | 20.58 | 16.84 | 10.82 | |
| BPA | 51.36 | 44.70 | 76.24 | 79.66 | 39.38 | 50.00 | 32.10 | 26.44 | 18.20 |
- BPA는 ImageNet의 아홉 개 취약 모델에 대해 일관되게 베이스라인보다 전이 가능성을 향상시킨다.
- 비타깃 공격(PGD, MI-FGSM, VMI-FGSM, ILA, SSA) 전반에서 BPA는 기존 모델 관련 방법들에 비해 상당한 이득을 준다.
- BPA는 로그잇 손실을 최적화할 때 표적 공격에서도 베이스라인보다 우수한 성능을 보인다.
- 마지막 ReLU 계층을 수정하는 것이 전이 가능성을 크게 높이며 ReLU와 최대 풀링 수정의 조합이 최적의 결과를 낳는다.
- BPA는 HGD, R&P, NIPS-r3, JPEG, RS 및 NRP와 같은 방어에 대한 공격의 강인성을 향상시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.