QUICK REVIEW

[논문 리뷰] Understanding and Improving Fast Adversarial Training

Maksym Andriushchenko, Nicolas Flammarion|arXiv (Cornell University)|2020. 07. 06.

Adversarial Robustness in Machine Learning참고 문헌 47인용 수 45

한 줄 요약

이 논문은 FGSM 기반의 빠른 적대적 학습이 재앙적 과적합을 겪는 이유를 분석하고, 강건성을 향상시키고 PGD 기반 학습과의 간극을 줄여주는 규제 GradAlign를 제시합니다.

ABSTRACT

A recent line of work focused on making adversarial training computationally efficient for deep learning models. In particular, Wong et al. (2020) showed that $\ell_\infty$-adversarial training with fast gradient sign method (FGSM) can fail due to a phenomenon called "catastrophic overfitting", when the model quickly loses its robustness over a single epoch of training. We show that adding a random step to FGSM, as proposed in Wong et al. (2020), does not prevent catastrophic overfitting, and that randomness is not important per se -- its main role being simply to reduce the magnitude of the perturbation. Moreover, we show that catastrophic overfitting is not inherent to deep and overparametrized networks, but can occur in a single-layer convolutional network with a few filters. In an extreme case, even a single filter can make the network highly non-linear locally, which is the main reason why FGSM training fails. Based on this observation, we propose a new regularization method, GradAlign, that prevents catastrophic overfitting by explicitly maximizing the gradient alignment inside the perturbation set and improves the quality of the FGSM solution. As a result, GradAlign allows to successfully apply FGSM training also for larger $\ell_\infty$-perturbations and reduce the gap to multi-step adversarial training. The code of our experiments is available at https://github.com/tml-epfl/understanding-fast-adv-training.

연구 동기 및 목표

FGSM으로 빠른 적대적 학습이 언제 어떻게 강건한 모델을 낳고 재앙적으로 과적합하는지 조사합니다.
FGSM 기반 학습에서 무작위성의 역할과 그것이扰 perturbation의 크기에 실제로 미치는 영향을 분석합니다.
재앙적 과적합을 그래디언트 정렬(gradient alignment)과 신경망의 국소 선형성에 연결합니다.
perturbation 집합 내에서 그래디언트 정렬을 명시적으로 극대화하는 GradAlign를 제안합니다.
데이터셋 전반에서 GradAlign를 다른 빠른 방법 및 다중 단계 적대적 학습 방법과 비교 평가합니다.

제안 방법

l_infty 위협 모델 하에서의 적대적 학습을 구성하고 FGSM, 무작위 시작(FGSM-RS), 그리고 PGD 기반 접근법을 대조합니다.
x와 x+eta 사이의 각도에 대한 1 - cos(angle of gradients)을 최소화하는 그래디언트 정렬 정규화기 GradAlign를 도입합니다.
단층 CNN에서 그래디언트 정렬을 분석하여 단일 필터가 비선형성과 과적합을 유도하는 방식을 설명합니다.
무작위 시작이 기대 perturbation 길이를 감소시켜 선형 근사 품질과 연결되는 이론적 상한을 제시합니다.
실험적으로 CIFAR-10, SVHN, ImageNet에서 FGSM, FGSM-RS, FGSM+GradAlign, AT for Free, PGD-2, PGD-10를 비교합니다.
주요 지표로 PGD-50-10 강건성을 사용한 학습 상세 및 평가 설정을 문서화합니다.

실험 결과

연구 질문

RQ1FGSM 기반 적대적 학습은 어떤 조건에서 재앙적 과적합을 피하는가?
RQ2FGSM의 무작위성(FGSM-RS)은 본질적으로扰 perturbation의 크기를 줄이는가, 아니면 다른 메커니즘이 작동하는가?
RQ3perturbation 집합 내 그래디언트 정렬은 강건성과 재앙적 과적합과 어떤 관련이 있는가?
RQ4그래디언트 정렬을 극대화하는 정규화기(GradAlign)가 재앙적 과적합을 방지하고 광범위한 내부 최대화를 필요로 하지 않는 빠른 적대적 학습을 개선할 수 있는가?
RQ5제안된 방법들이 CIFAR-10, SVHN, ImageNet 같은 표준 벤치마크에서 PGD 기반 적대적 학습과 비교하여 어떤 차이가 있는가?

주요 결과

FGSM 및 관련 빠른 적대적 학습 방법은 재앙적 과적합을 보일 수 있으며; GradAlign가 이를 방지하고 PGD-10에 대한 강건성 격차를 줄입니다.
FGSM-RS가 재앙적 과적합을 본질적으로 해결하지는 않으며, FGSM 단계 크기를 줄이면 무작위성 없이도 유사한 강건성을 달성할 수 있습니다.
무작위 시작은 기대 perturbation 길이를 감소시켜 선형 근사 품질을 향상시키고 FGSM-RS의 부분적 이점을 설명합니다.
재앙적 과적합은 그래디언트 정렬의 감소 및 FGSM 방향과 PGD 방향의 불일치와 상관관계가 있습니다.
GradAlign은 x와 x+eta 사이의 그래디언트 정렬을 증가시켜 더 큰 l_infty 반경에서도 FGSM 학습이 강건성을 달성하게 하며, PGD-10 성능에 근접합니다.
GradAlign은 PGD-2와 결합해도 강건성을 향상시키고 ImageNet에도 확장 가능하지만 이중 역전파로 인한 학습 속도 저하가 있습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.