[논문 리뷰] Uncovering the Limits of Adversarial Training against Norm-Bounded Adversarial Examples
이 논문은 적대적 학습의 한계를 밝히기 위한 체계적 연구를 수행하고, 더 큰 모델, Swish/SiLU 활성화 및 모델 가중치 평균화를 결합하면 특히 비라벨 데이터와 함께 강건성 이득이 크게 증가한다는 것을 보여준다.
Adversarial training and its variants have become de facto standards for learning robust deep neural networks. In this paper, we explore the landscape around adversarial training in a bid to uncover its limits. We systematically study the effect of different training losses, model sizes, activation functions, the addition of unlabeled data (through pseudo-labeling) and other factors on adversarial robustness. We discover that it is possible to train robust models that go well beyond state-of-the-art results by combining larger models, Swish/SiLU activations and model weight averaging. We demonstrate large improvements on CIFAR-10 and CIFAR-100 against $\ell_\infty$ and $\ell_2$ norm-bounded perturbations of size $8/255$ and $128/255$, respectively. In the setting with additional unlabeled data, we obtain an accuracy under attack of 65.88% against $\ell_\infty$ perturbations of size $8/255$ on CIFAR-10 (+6.35% with respect to prior art). Without additional data, we obtain an accuracy under attack of 57.20% (+3.46%). To test the generality of our findings and without any additional modifications, we obtain an accuracy under attack of 80.53% (+7.62%) against $\ell_2$ perturbations of size $128/255$ on CIFAR-10, and of 36.88% (+8.46%) against $\ell_\infty$ perturbations of size $8/255$ on CIFAR-100. All models are available at https://github.com/deepmind/deepmind-research/tree/master/adversarial_robustness.
연구 동기 및 목표
- 적대적 학습의 효과성과 노름 경계 교란에 대한 강건성 한계를 평가한다.
- 학습 손실, 모델 크기, 활성화 함수, 비라벨 데이터, 가중치 평균화가 강건 정확도에 미치는 영향을 조사한다.
- CIFAR-10/100 및 MNIST에서 최첨단 강건성을 현 상태와 비교하여 조합 가능한 요인들을 확인한다.
제안 방법
- 내부/외부 최적화 손실을 사용하여 적대적 학습 변형을 공식화하고 평가한다.
- 표준 AT, TRADES, MART 손실을 서로 다른 내부 최대화 전략과 비교한다.
- 모델 확장성(깊이/너비)과 활성화 함수(Swish/SiLU)를 실험한다.
- 80 Million Tiny Images에서의 의사라벨링을 통해 비라벨 데이터를 도입하고 라벨/비라벨 비율을 변화시킨다.
- 훈련 중에 모델 가중치 평균화를 적용하고 강건성에 미치는 영향을 평가한다.
- 강한 공격(AutoAttack 및 MultiTargeted)과 검증 강건 정확도에 기반한 조기 중단으로 강건성을 평가한다.
실험 결과
연구 질문
- RQ1현재의 노름 경계 교란에 대한 적대적 학습 접근법의 한계는 무엇인가?
- RQ2내부/외부 손실 선택이 데이터 레짐 전반에서 강건성 및 깨끗한 정확도에 어떤 영향을 미치는가?
- RQ3비라벨 데이터와 의사라벨링은 강건한 성능을 개선하는가, 그리고 이를 어떻게 통합해야 하는가?
- RQ4모델 용량(깊이/너비)과 활성화 함수가 강건성에 어떤 영향을 미치는가?
- RQ5가중치 평균화가 설정에 따라 일관된 강건성 이득을 제공하는가?
주요 결과
- TRADES는 조기 중단을 사용할 때 라벨 데이터 유무에 관계없이 CIFAR-10에서의 강건성 면에서 고전적 적대적 학습보다 종종 더 우수하다.
- 모델 용량(깊이/너비)을 증가시키면 일반적으로 강건성이 향상되며, 더 깊은 모델이 때때로 더 큰 파라미터 수보다 더 우수한 성능을 보인다.
- Swish/SiLU 활성화는 강건성 이점을 가져오지만, 다른 매끄러운 활성화는 반드시 도움이 되지 않는다.
- 의사라벨링을 통한 비라벨 데이터는 강건성을 높일 수 있으며, 그들의 설정에서 라벨 대 비라벨 데이터 비율이 약 3:7인 것이 최적이다.
- 모델 가중치 평균화는 일관되게 강건성을 향상시키며, 때로는 데이터 부족 환경에서 TRADES의 이득과 유사한 효과를 보인다.
- 그들의 최적의 CIFAR-10 결과는 비라벨 데이터가 있는 경우 8/255 L-infinity 교란에 대해 65.88%의 강건 정확도와 라벨 데이터가 없는 경우 57.20%를 달성; CIFAR-10의 L2-128/255 하에서 80.53%의 강건 정확도에 도달하는 등(맥락상 텍스트의 값에서 가져온 값들).
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.