Skip to main content
QUICK REVIEW

[논문 리뷰] Intriguing Properties of Adversarial Examples

Ekin D. Cubuk, Barret Zoph|arXiv (Cornell University)|2017. 11. 08.
Adversarial Robustness in Machine Learning참고 문헌 19인용 수 23
한 줄 요약

이 논문은 적대적 예제가 주로 신경망 예측의 내재된 불확실성에서 기인하며, 다양한 모델과 데이터셋에서 편향 크기와 함께 적대적 오차가 보편적인 거듭제곱 법칙으로 스케일링됨을 규명한다. 이 행동은 로짓 차이의 통계적 분포에서 기인하며, 신경망 아키텍처 탐색을 통해 더 견고한 모델을 발견하여 청소 및 적대적 정확도를 향상시킨다.

ABSTRACT

It is becoming increasingly clear that many machine learning classifiers are vulnerable to adversarial examples. In attempting to explain the origin of adversarial examples, previous studies have typically focused on the fact that neural networks operate on high dimensional data, they overfit, or they are too linear. Here we argue that the origin of adversarial examples is primarily due to an inherent uncertainty that neural networks have about their predictions. We show that the functional form of this uncertainty is independent of architecture, dataset, and training protocol; and depends only on the statistics of the logit differences of the network, which do not change significantly during training. This leads to adversarial error having a universal scaling, as a power-law, with respect to the size of the adversarial perturbation. We show that this universality holds for a broad range of datasets (MNIST, CIFAR10, ImageNet, and random data), models (including state-of-the-art deep networks, linear models, adversarially trained networks, and networks trained on randomly shuffled labels), and attacks (FGSM, step l.l., PGD). Motivated by these results, we study the effects of reducing prediction entropy on adversarial robustness. Finally, we study the effect of network architectures on adversarial sensitivity. To do this, we use neural architecture search with reinforcement learning to find adversarially robust architectures on CIFAR10. Our resulting architecture is more robust to white \emph{and} black box attacks compared to previous attempts.

연구 동기 및 목표

  • 다양한 모델과 데이터셋 간에 존재하는 적대적 예제의 공통적이고 보편적인 성질을 이해하는 것.
  • 적대적 견고성이 기본적으로 모델 아키텍처와 학습 동역학에 연결되어 있는지 조사하는 것.
  • 예측 엔트로피를 감소시키는 것이 적대적 견고성에 영향을 주는지 탐색하는 것.
  • 강화학습 기반 신경망 아키텍처 탐색(NAS)을 이용해 적대적으로 견고한 신경망 아키텍처를 발견하는 것.
  • 백색상자 및_BLK 백색상자 공격에 대한 적대적 훈련과 아키텍처 탐색의 효과성을 평가하는 것.

제안 방법

  • 다양한 데이터셋(MNIST, CIFAR10, ImageNet, 무작위 데이터)과 모델(선형, CNNs, ResNets, Inception, NASNet)에서 편향 크기 ε에 따른 적대적 오차 분석.
  • FGSM 및 PGD 공격의 경우 Aε^B 형태의 거듭제곱 법칙 스케일링 유도, 여기서 B ≈ 0.9–1.3이며, 단계별 l.l. 공격의 경우 B ≈ 1.8–2.5.
  • 적대적 성공률이 상위 로짓과 두 번째 상위 로짓 간의 차이의 누적분포와 연결되며, 이는 모든 모델과 데이터셋에서 보편적인 형태를 띤다.
  • CIFAR10에서 PGD 공격과 청소 데이터를 사용해 적대적 견고성 향상을 위해 강화학습 기반 신경망 아키텍처 탐색(NAS)을 적용.
  • ε = 8에서 백색상자 및 블랙박스 공격(FGSM, 단계별 l.l., PGD)을 통해 견고성 평가하며, 기준 모델 및 이전 연구(Madry et al., 2017)와 비교.
  • 9,360개의 자식 모델을 대상으로 청소 정확도, 파라미터 수, 적대적 정확도 간 상관관계 측정하여 견고성 예측자 식별.

실험 결과

연구 질문

  • RQ1다양한 모델, 데이터셋, 공격 유형 간에 적대적 오차에 대해 보편적인 스케일링 법칙이 존재하는가?
  • RQ2신경망의 어떤 기초 통계적 성질이 관찰된 적대적 행동의 보편성에 기여하는가?
  • RQ3예측 엔트로피를 감소시키는 것이 적대적 견고성에 어떤 영향을 미치는가?
  • RQ4신경망 아키텍처 탐색이 백색상자 및 블랙박스 공격에 더 견고한 모델을 발견할 수 있는가?
  • RQ5청소 정확도는 얼마나 적대적 견고성과 상관관계가 있으며, 모델 크기와 독립적으로 견고성을 달성할 수 있는가?

주요 결과

  • 모든 연구된 데이터셋과 모델에서 FGSM 및 PGD 공격의 경우 B ≈ 0.9–1.3, 단계별 l.l. 공격의 경우 B ≈ 1.8–2.5로, 적대적 오차는 편향 크기 ε에 대해 거듭제곱 법칙으로 스케일링된다.
  • 이 거듭제곱 법칙 스케일링은 보편적이며, 무작위로 셔플된 레이블로 훈련된 모델에서도 유지되며, 이는 데이터 구조나 일반화의 영향이 아니라는 것을 시사한다.
  • 적대적 민감도의 기능적 형태는 상위 로짓과 두 번째 상위 로짓 간의 차이의 누적분포에 의해 결정되며, 이는 모든 모델과 데이터셋에서 보편적이다.
  • 적대적 NAS를 통해 발견된 최고의 아키텍처는 ε=8에서 93.2%의 청소 정확도와 75.0%의 적대적 정확도를 기록하여, Madry et al. (2017)의 성능을 청소 정확도(+5.9%)와 블랙박스 견고성에서 모두 초월한다.
  • 적대적 정확도는 청소 정확도와 강하게 상관관계가 있음(r ≈ 0.8)하지만, 높은 청소 정확도만으로는 견고성이 보장되지 않으며, 청소 정확도가 85% 이상인 모델들에서도 적대적 정확도의 분산이 높게 유지됨(σ ≈ 2.6% 이상).
  • 단일 단계 적대적 예제로 훈련하면 ε < 0.2인 작은 편향 공격에 대해 거의 방어 효과가 없지만, 더 큰 ε 공격에 대해서는 강력한 방어 효과를 보이며, 이는 작은 편향과 큰 편향에 대해 다른 메커니즘이 작용하고 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.