[논문 리뷰] Fast is better than free: Revisiting adversarial training
논문은 random initialization을 가진 FGSM 적대적 학습이 훨씬 낮은 비용으로 PGD 기반 강인성에 맞먹을 수 있음을 보여주고, 빠른 학습 기법이 강건한 모델 학습을 크게 가속시키지만, catastrophic overfitting으로 불리는 실패 모드가 발생할 수 있음을 시사한다.
Adversarial training, a method for learning robust deep networks, is typically assumed to be more expensive than traditional training due to the necessity of constructing adversarial examples via a first-order method like projected gradient decent (PGD). In this paper, we make the surprising discovery that it is possible to train empirically robust models using a much weaker and cheaper adversary, an approach that was previously believed to be ineffective, rendering the method no more costly than standard training in practice. Specifically, we show that adversarial training with the fast gradient sign method (FGSM), when combined with random initialization, is as effective as PGD-based training but has significantly lower cost. Furthermore we show that FGSM adversarial training can be further accelerated by using standard techniques for efficient training of deep networks, allowing us to learn a robust CIFAR10 classifier with 45% robust accuracy to PGD attacks with $ε=8/255$ in 6 minutes, and a robust ImageNet classifier with 43% robust accuracy at $ε=2/255$ in 12 hours, in comparison to past work based on "free" adversarial training which took 10 and 50 hours to reach the same respective thresholds. Finally, we identify a failure mode referred to as "catastrophic overfitting" which may have caused previous attempts to use FGSM adversarial training to fail. All code for reproducing the experiments in this paper as well as pretrained model weights are at https://github.com/locuslab/fast_adversarial.
연구 동기 및 목표
- 적대적 학습을 사용하여 실험적으로 강건한 심층 네트워크에 대한 더 저렴하고 빠른 경로를 동기에 부여한다.
- 약한 적대자(FGSM)가 강한 PGD 적대자와 비교할 만한 강건성을 달성할 수 있는지 평가한다.
- DAWNBench에서 영감을 받은 기법(순환 학습률, 혼합 정밀도)을 통합하여 적대적 학습을 가속화한다.
- FGSM 기반 강건성의 실패 모드를 식별하고 해결책을 제시한다.
- CIFAR-10 및 ImageNet 벤치마크에서 실용적 강건성 및 학습 속도를 입증한다.
제안 방법
- 적대적 학습을 l_infty 섭 perturbation(ε)에서의 강건 최적화 문제로 형식화한다.
- 학습을 위한 적대적 예제를 생성하기 위해 random initialization을 가진 FGSM을 사용한다.
- robustness를 개선하기 위해 random restarts와 FGSM 스텝 크기 조정(예: alpha = 1.25 * epsilon)을 도입한다.
- DAWNBench에서 영감을 받은 학습 가속화: cyclic 학습률과 혼합 정밀도 산술을 적용한다.
- 강한 PGD 공격에 대한 강건성을 평가하고 varying epsilons에서 MNIST/CIFAR-10/ImageNet에서 확인한다.
- catastrophic overfitting이라는 실패 모드를 식별·분석하고 조기 중단 기반 솔루션을 제안한다.
실험 결과
연구 질문
- RQ1random initialization을 가진 FGSM 적대적 학습이 실험적으로 PGD 기반 적대적 학습에 비견될 만큼의 강건성을 달성할 수 있는가?
- RQ2순환 학습률 및 혼합 정밀도에서의 학습 가속이 적대적 학습의 효율성과 강건성에 어떤 영향을 미치는가?
- RQ3초기화 및 스텝 크기 선택이 FGSM 기반 강건성에 미치는 영향은 무엇이며 어떤 실패 모드(“catastrophic overfitting”)가 발생할 수 있는가?
- RQ4빠른 FGSM 기반 방법이 CIFAR-10 및 ImageNet에서 강한 PGD 평가에 대해 어떤 성능을 보이는가?
- RQ5최소 학습 시간으로 강건한 모델을 달성하기 위한 실용적 지침은 무엇인가?
주요 결과
- random initialization을 가진 FGSM 적대적 학습이 CIFAR-10에서 PGD 기반 학습과 유사한 강건성을 훨씬 더 낮은 비용으로 달성할 수 있다.
- 주기적 학습률과 혼합 정밀도 학습은 수렴 속도를 가속화하여 CIFAR-10 강건 모델을 분 단위로, ImageNet 강건 모델을 시간 단위로 달성하게 한다.
- epsilon = 8/255에서 CIFAR-10에 대한 강건 정확도는 PGD에 대한 강건성에 비해 거의 동일하지만 학습 시간이 크게 감소한다.
- epsilon = 2/255에서 ImageNet 강건 모델은 빠른 기법을 사용하여 대략 12시간 정도의 시간으로 이전 방법과 유사한 강건성을 달성한다.
- FGSM perturbation을 경계로 밀어붙이거나 0 초기화를 사용할 때 catastrophic overfitting이라는 실패 모드가 발생할 수 있으며, PGD 정확도에 기반한 조기 중단을 통해 강건성을 회복할 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.