[논문 리뷰] On the Convergence and Robustness of Adversarial Training
적대적 학습에서 내부 최대화의 수렴 기준으로 FOSC를 도입하고, 점진적으로 적대적 강도를 증가시키는 동적 학습 전략을 제안하여 강건성을 향상시키며 이론적 수렴 보장과 광범위한 실험을 제공한다.
Improving the robustness of deep neural networks (DNNs) to adversarial examples is an important yet challenging problem for secure deep learning. Across existing defense techniques, adversarial training with Projected Gradient Decent (PGD) is amongst the most effective. Adversarial training solves a min-max optimization problem, with the extit{inner maximization} generating adversarial examples by maximizing the classification loss, and the extit{outer minimization} finding model parameters by minimizing the loss on adversarial examples generated from the inner maximization. A criterion that measures how well the inner maximization is solved is therefore crucial for adversarial training. In this paper, we propose such a criterion, namely First-Order Stationary Condition for constrained optimization (FOSC), to quantitatively evaluate the convergence quality of adversarial examples found in the inner maximization. With FOSC, we find that to ensure better robustness, it is essential to use adversarial examples with better convergence quality at the extit{later stages} of training. Yet at the early stages, high convergence quality adversarial examples are not necessary and may even lead to poor robustness. Based on these observations, we propose a extit{dynamic} training strategy to gradually increase the convergence quality of the generated adversarial examples, which significantly improves the robustness of adversarial training. Our theoretical and empirical results show the effectiveness of the proposed method.
연구 동기 및 목표
- 적대적 학습에서 내부 최대화에 대한 정량적 수렴 기준의 필요성 동기 부여.
- epsilon-볼 내에서의 수렴 품질의 아핀 불변의 척도인 FOSC를 도입.
- 훈련 중 점진적으로 적대적 강도를 증가시키면 강건성이 향상됨.
- 제안된 동적 학습 전략에 대한 이론적 수렴 보장 제공.
- MNIST와 CIFAR-10에서 제안된 방법을 최첨단 방어와 비교하여 실증적으로 검증.
제안 방법
- 적대적 학습 목표를 ε-볼 위의 내부 최대화를 포함하는 미니맥스 문제로 정의한다.
- 제안 FOSC, 제약 최적화의 일阶 stationary condition, 를 내부 최대화의 수렴 기준으로 사용.
- FOSC의 닫힌 형태 표현과 변동/그라디언트와의 관계를 보여주며, FOSC가 작을수록 더 강한 적대적 어드버서리와 연결됨.
- 훈련 에폭에 걸쳐 FOSC 임계치를 점진적으로 감소시키는 동적 적대적 학습 알고리즘 제안.
- delta-정밀도와 내부 최대화 오차에 관련된 수렴 분석: 서브 선형 수렴으로 정착점으로 수렴.
- MNIST 및 CIFAR-10에서 Dynamic 학습을 Standard 및 Curriculum 방어와 WideResNet 설정 포함하여 비교 실험.
실험 결과
연구 질문
- RQ1적대적 학습에서 내부 최대화의 수렴 품질을 어떻게 정량화할 수 있는가?
- RQ2FOSC가 적대적 강도와 다운스트림 강건성의 신뢰할 수 있는 지표인가?
- RQ3시간에 따라 적대적 강도를 증가시키는 동적 커리큘럼이 고정 강도 PGD 적대적 학습보다 강건성을 향상시키는가?
- RQ4제안된 동적 적대적 학습 접근법의 이론적 수렴 보장은 무엇인가?
- RQ5동적 적대적 학습은 MNIST 및 CIFAR-10에서 화이트 박스 및 블랙 박스 공격에 대해 더 큰 모델로도 어떻게 수행되는가?
주요 결과
| 방어 | MNIST 클린 | MNIST FGSM | MNIST PGD-10 | MNIST PGD-20 | MNIST C&W ∞ | CIFAR-10 클린 | CIFAR-10 FGSM | CIFAR-10 PGD-10 | CIFAR-10 PGD-20 | CIFAR-10 C&W ∞ |
|---|---|---|---|---|---|---|---|---|---|---|
| 보안 없음 | 99.20 | 14.04 | 0.0 | 0.0 | 0.0 | 89.39 | 2.2 | 0.0 | 0.0 | 0.0 |
| 일반 | 97.61 | 94.71 | 91.21 | 90.62 | 91.03 | 66.31 | 48.65 | 44.39 | 40.02 | 36.33 |
| 커리큘럼 | 98.62 | 95.51 | 91.24 | 90.65 | 91.12 | 72.40 | 50.47 | 45.54 | 40.12 | 35.77 |
| 동적 | 97.96 | 95.34 | 91.63 | 91.27 | 91.47 | 72.17 | 52.81 | 48.06 | 42.40 | 37.26 |
- FOSC는 적대적 강도와 선형 상관관계를 보인다(FOSC 감소에 따라 정확도 감소, 손실 증가).
- 훈련 후반부에 더 높은 수렴 품질의 적대적 예제로 학습하면 강건성이 향상되며, 초기 단계의 고수렴 어드버서는 강건성에 해를 줄 수 있음.
- Dynamic 학습은 점진적으로 FOSC 임계치를 조정함으로써 표준 PGD 대비 강건성을 크게 향상시키며, 특히 CIFAR-10에서 그렇다.
- 이론적 분석은 내부 최대화 정확도(delta)에 의해 결정되는 delta-정밀도까지의 서브 선형 속도로 1차 수렴점으로 수렴함.
- 실험적 결과는 Dynamic 학습이 MNIST 및 CIFAR-10에서 강력한 화이트박스 및 블랙박스 강건성을 달성하며, CIFAR-10에서 특히 큰 폭의 증가와 WideResNet 아키텍처에서 큰 이득이 있음을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.