[논문 리뷰] Minimally distorted Adversarial Examples with a Fast Adaptive Boundary Attack
FAB-attack를 소개하는 백박스 방식으로, l1, l2, 및 linf 노름에서 최소한으로 왜곡된 적대적 예제를 효율적으로 찾고, 스케일링-불변 특성과 그레이디언트 마스킹에 대한 강력한 강건성을 갖는다.
The evaluation of robustness against adversarial manipulation of neural networks-based classifiers is mainly tested with empirical attacks as methods for the exact computation, even when available, do not scale to large networks. We propose in this paper a new white-box adversarial attack wrt the $l_p$-norms for $p \in \{1,2,\infty\}$ aiming at finding the minimal perturbation necessary to change the class of a given input. It has an intuitive geometric meaning, yields quickly high quality results, minimizes the size of the perturbation (so that it returns the robust accuracy at every threshold with a single run). It performs better or similar to state-of-the-art attacks which are partially specialized to one $l_p$-norm, and is robust to the phenomenon of gradient masking.
연구 동기 및 목표
- 최소 교란으로 적대적 perturbations에 대한 분류기의 강건한 평가를 촉구한다.
- p in {1,2,∞}에서 최소의 l_p-노름 교란을 산출하는 백박스 공격을 개발한다.
- 거의 즉시 활용 가능하고 확장 가능한 공격을 제공하여 광범위한 하이퍼파라미터 튜닝을 피한다.
- 다른 공격에서 흔히 발생하는 그레이디언트 마스킹 및 스케일링 문제에 대해 공격의 강건성을 보장한다.
제안 방법
- l_p 노름과 박스 제약에 대해 최소적 적대적 교란을 정의한다.
- 결정 초평면과 박스(C)의 교집합에 대한 투영을 사용하여 정확한 p-노름 투영(proj_p)을 계산한다.
- 방향(pi_s)에서 투영의 볼록 조합(x(i)와 원래 입력 x_orig)을 사용하여 원래 입력으로 점진적으로 편향된 스텝을 수행한다(식 (10)과 같이).
- 판단 초평면까지의 상대 거리를 바탕으로 적응 스텝 바이어스 알파를 계산한다(식 9).
- 외삽 스텝(에타)과 교란 크기를 더욱 좁히는 최종 탐색을 포함한다(식 12-13).
- 결과를 개선하기 위해 다수의 시작점을 탐색하기 위한 랜덤 리스타트를 선택적으로 적용한다.
실험 결과
연구 질문
- RQ1단일의 확장 가능한 백박스 공격이 데이터셋별 조정 없이도 l1, l2 및 linf 노름에 걸쳐 최소한의 적대적 교란을 달성할 수 있는가?
- RQ2박스 제약이 있는 초평면에 투영하고 원래 입력을 향해 스텝을 바이어스하는 방식이 서로 다른 네트워크 및 방어에서도 공격 성공을 유지하면서 더 작은 교란을 만들어내는가?
- RQ3FAB-attack는 분류기의 그레이디언트 마스킹과 스케일링에 대해 견고한가?
- RQ4다중 노름에서 MNIST, CIFAR-10, 그리고 Restricted ImageNet에 대해 FAB의 경험적 성능은 최첨단 공격과 비교하여 어떠한가?
주요 결과
- FAB-attack는 MNIST 및 CIFAR-10에서 l1, l2 및 linf 노름에 대해 최첨단 공격을 능가하거나 일치하는 경우가 많다.
- FAB-attack는 그레이디언트 마스킹 하에서도 효과적이며 분류기의 스케일링에 불변하며, 이는 PGD와 다르다.
- 적당한 수의 리스타트로 더 적은 하이퍼파라미터와 무단의 스텝 크기 튜닝 없이도 고품질의 적대적 예제를 달성한다.
- Restricted ImageNet에서 FAB-attack은 l1에서 최상의 결과를, linf 및 l2에서 강력한 베이스라인과 비교해도 경쟁력 있는 결과를 보인다.
- FAB-attack은 보통 경쟁자보다 적은 반복으로도 경쟁력 있거나 더 나은 강건성 지표를 보이고, 저예산 변형(FAB-10)도 여전히 강력하다.
- 노름 전반에 걸쳐 FAB는 일반적으로 최상위 혹은 거의 최상위의 평균 강건 정확도와 최고 공격과의 평균/최댓값 차이가 작다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.