Skip to main content
QUICK REVIEW

[논문 리뷰] Understanding and Improving Fast Adversarial Training

Maksym Andriushchenko, Nicolas Flammarion|arXiv (Cornell University)|2020. 07. 06.
Adversarial Robustness in Machine Learning참고 문헌 47인용 수 45
한 줄 요약

이 논문은 FGSM 기반의 빠른 적대적 학습이 재앙적 과적합을 겪는 이유를 분석하고, 강건성을 향상시키고 PGD 기반 학습과의 간극을 줄여주는 규제 GradAlign를 제시합니다.

ABSTRACT

A recent line of work focused on making adversarial training computationally efficient for deep learning models. In particular, Wong et al. (2020) showed that $\ell_\infty$-adversarial training with fast gradient sign method (FGSM) can fail due to a phenomenon called "catastrophic overfitting", when the model quickly loses its robustness over a single epoch of training. We show that adding a random step to FGSM, as proposed in Wong et al. (2020), does not prevent catastrophic overfitting, and that randomness is not important per se -- its main role being simply to reduce the magnitude of the perturbation. Moreover, we show that catastrophic overfitting is not inherent to deep and overparametrized networks, but can occur in a single-layer convolutional network with a few filters. In an extreme case, even a single filter can make the network highly non-linear locally, which is the main reason why FGSM training fails. Based on this observation, we propose a new regularization method, GradAlign, that prevents catastrophic overfitting by explicitly maximizing the gradient alignment inside the perturbation set and improves the quality of the FGSM solution. As a result, GradAlign allows to successfully apply FGSM training also for larger $\ell_\infty$-perturbations and reduce the gap to multi-step adversarial training. The code of our experiments is available at https://github.com/tml-epfl/understanding-fast-adv-training.

연구 동기 및 목표

  • FGSM으로 빠른 적대적 학습이 언제 어떻게 강건한 모델을 낳고 재앙적으로 과적합하는지 조사합니다.
  • FGSM 기반 학습에서 무작위성의 역할과 그것이扰 perturbation의 크기에 실제로 미치는 영향을 분석합니다.
  • 재앙적 과적합을 그래디언트 정렬(gradient alignment)과 신경망의 국소 선형성에 연결합니다.
  • perturbation 집합 내에서 그래디언트 정렬을 명시적으로 극대화하는 GradAlign를 제안합니다.
  • 데이터셋 전반에서 GradAlign를 다른 빠른 방법 및 다중 단계 적대적 학습 방법과 비교 평가합니다.

제안 방법

  • l_infty 위협 모델 하에서의 적대적 학습을 구성하고 FGSM, 무작위 시작(FGSM-RS), 그리고 PGD 기반 접근법을 대조합니다.
  • x와 x+eta 사이의 각도에 대한 1 - cos(angle of gradients)을 최소화하는 그래디언트 정렬 정규화기 GradAlign를 도입합니다.
  • 단층 CNN에서 그래디언트 정렬을 분석하여 단일 필터가 비선형성과 과적합을 유도하는 방식을 설명합니다.
  • 무작위 시작이 기대 perturbation 길이를 감소시켜 선형 근사 품질과 연결되는 이론적 상한을 제시합니다.
  • 실험적으로 CIFAR-10, SVHN, ImageNet에서 FGSM, FGSM-RS, FGSM+GradAlign, AT for Free, PGD-2, PGD-10를 비교합니다.
  • 주요 지표로 PGD-50-10 강건성을 사용한 학습 상세 및 평가 설정을 문서화합니다.

실험 결과

연구 질문

  • RQ1FGSM 기반 적대적 학습은 어떤 조건에서 재앙적 과적합을 피하는가?
  • RQ2FGSM의 무작위성(FGSM-RS)은 본질적으로扰 perturbation의 크기를 줄이는가, 아니면 다른 메커니즘이 작동하는가?
  • RQ3perturbation 집합 내 그래디언트 정렬은 강건성과 재앙적 과적합과 어떤 관련이 있는가?
  • RQ4그래디언트 정렬을 극대화하는 정규화기(GradAlign)가 재앙적 과적합을 방지하고 광범위한 내부 최대화를 필요로 하지 않는 빠른 적대적 학습을 개선할 수 있는가?
  • RQ5제안된 방법들이 CIFAR-10, SVHN, ImageNet 같은 표준 벤치마크에서 PGD 기반 적대적 학습과 비교하여 어떤 차이가 있는가?

주요 결과

  • FGSM 및 관련 빠른 적대적 학습 방법은 재앙적 과적합을 보일 수 있으며; GradAlign가 이를 방지하고 PGD-10에 대한 강건성 격차를 줄입니다.
  • FGSM-RS가 재앙적 과적합을 본질적으로 해결하지는 않으며, FGSM 단계 크기를 줄이면 무작위성 없이도 유사한 강건성을 달성할 수 있습니다.
  • 무작위 시작은 기대 perturbation 길이를 감소시켜 선형 근사 품질을 향상시키고 FGSM-RS의 부분적 이점을 설명합니다.
  • 재앙적 과적합은 그래디언트 정렬의 감소 및 FGSM 방향과 PGD 방향의 불일치와 상관관계가 있습니다.
  • GradAlign은 x와 x+eta 사이의 그래디언트 정렬을 증가시켜 더 큰 l_infty 반경에서도 FGSM 학습이 강건성을 달성하게 하며, PGD-10 성능에 근접합니다.
  • GradAlign은 PGD-2와 결합해도 강건성을 향상시키고 ImageNet에도 확장 가능하지만 이중 역전파로 인한 학습 속도 저하가 있습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.