[논문 리뷰] Nesterov Accelerated Gradient and Scale Invariance for Improving Transferability of Adversarial Examples.
이 논문은 블랙박스 환경에서 적대적 예측의 전이 가능성(transferability)을 향상하기 위해 NI-FGSM과 SIM을 제안한다. NI-FGSM은 전방 최적화를 위한 네스테로프 가속 경사하강법을 사용하는 반면, SIM은 척도 불변성(scale-invariance)을 활용하여 스케일된 이미지 복제본을 최적화 대상으로 삼아 과적합을 줄인다; 이 둘을 조합하여 ImageNet에서 최신 기준(SOTA) 공격 성공률을 달성한다.
Deep learning models are vulnerable to adversarial examples crafted by applying human-imperceptible perturbations on benign inputs. However, under the black-box setting, most existing adversaries often have a poor transferability to attack other defense models. In this work, from the perspective of regarding the adversarial example generation as an optimization process, we propose two new methods to improve the transferability of adversarial examples, namely Nesterov Iterative Fast Gradient Sign Method (NI-FGSM) and Scale-Invariant attack Method (SIM). NI-FGSM aims to adapt Nesterov accelerated gradient into the iterative attacks so as to effectively look ahead and improve the transferability of adversarial examples. While SIM is based on our discovery on the scale-invariant property of deep learning models, for which we leverage to optimize the adversarial perturbations over the scale copies of the input images so as to avoid overfitting on the white-box model being attacked and generate more transferable adversarial examples. NI-FGSM and SIM can be naturally integrated to build a robust gradient-based attack to generate more transferable adversarial examples against the defense models. Empirical results on ImageNet dataset demonstrate that our attack methods exhibit higher transferability and achieve higher attack success rates than state-of-the-art gradient-based attacks.
연구 동기 및 목표
- 방어 모델 간 일반화에 실패하는 블랙박스 환경에서의 적대적 예측의 열악한 전이 가능성 문제를 해결한다.
- 적대적 예측 생성을 최적화 과정으로 재고함으로써 적대적 예측의 강건성과 일반화 능력을 향상시킨다.
- 화이트박스 공격 생성 과정에서 타겟 모델에 과적합되는 문제를 해결함으로써, 미리보지 않은 방어 모델로의 전이 가능성 제한을 완화한다.
- 초기 공격 단계 이후 타겟 모델의 아키텍처나 기울기 정보에 접근하지 않고도 전이 가능성을 향상시키는 방법을 개발한다.
- 다양한 방어 메커니즘에 걸쳐 눈에 띄지 않는 변형을 유지하면서도 ImageNet에서 높은 공격 성공률을 달성한다.
제안 방법
- 네스테로프 가속 경사하강법을 통합한 반복적 FGSM의 변형인 네스테로프 반복적 빠른 기울기 부호 방법(Nesterov Iterative Fast Gradient Sign Method, NI-FGSM)을 제안하여, 적대적 변형 생성 과정에서 전방 최적화를 가능하게 한다.
- 입력 이미지의 다중 스케일 복제본을 대상으로 변형을 최적화하여 적대적 예측을 생성하는 척도 불변 공격 방법(Scale-Invariant attack Method, SIM)을 도입한다.
- 딥 러닝 모델의 척도 불변 성질을 활용하여 공격 훈련 중 원본 입력 이미지의 특정 스케일에 대한 과적합을 줄인다.
- NI-FGSM과 SIM을 통합한 유일한 기울기 기반 공격 프레임워크를 구축하여 수렴성과 전이 가능성을 동시에 향상시킨다.
- NI-FGSM에서 동역학적 업데이트를 반복적으로 적용함으로써 방향성과 안정성을 향상시켜 적대적 변형 탐색의 효율성을 높인다.
- 공격 과정 중 스케일 증강 데이터를 적용하여 모델이 다양한 입력 스케일에 일반화되는 변형을 학습하도록 유도한다.
실험 결과
연구 질문
- RQ1네스테로프 가속 경사하강법은 반복적 FGSM 공격에서 적대적 예측의 전이 가능성을 향상시키는가?
- RQ2딥 네트워크의 척도 불변 성질을 활용하면 더 강건하고 일반화 가능한 적대적 예측을 얻을 수 있는가?
- RQ3네스테로프를 통한 전방 최적화와 스케일 증강된 변형 탐색을 조합하면 다양한 방어 모델 간 전이 가능성이 향상되는가?
- RQ4방어 메커니즘이 있는 ImageNet에서 제안된 방법은 최신 기준(SOTA) 기울기 기반 공격에 비해 공격 성공률에서 뛰어나게 성과를 내는가?
- RQ5척도 불변 최적화가 화이트박스 모델에 대한 과적합을 얼마나 줄이는가?
주요 결과
- NI-FGSM과 SIM을 조합하면 ImageNet 데이터셋에서 최신 기준(SOTA) 기울기 기반 공격보다 더 높은 전이 가능성을 확보한다.
- 네스테로프 가속을 통합함으로써 적대적 탐색 과정에서 더 나은 수렴성과 방향성을 확보하여 전이 가능성이 향상된다.
- SIM을 통한 척도 불변 최적화로 원본 입력의 스케일에 대한 과적합이 감소하여 더 일반화 가능한 적대적 변형이 생성된다.
- 실험 결과로 제안된 방법이 기존 방법보다 다양한 방어 모델에서 높은 공격 성공률을 달성함을 입증한다.
- 딥 러닝 모델의 척도 불변 성질이 효과적으로 활용되어 다양한 입력 스케일에서 일반화되는 적대적 예측을 생성할 수 있었다.
- 통합된 NI-FGSM과 SIM 프레임워크는 ImageNet에서 다양한 방어 메커니즘에 대해 뛰어난 강건한 성능을 보였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.