[논문 리뷰] Adversarial Distributional Training for Robust Deep Learning
ADversarial Distributional Training (ADT)를 제시합니다. 입력 주위의 적대적 분포를 학습하는 미니맥스 프레임워크로, 보이지 않는 공격에 대한 강건성을 개선하기 위해 세 가지 매개변수화와 CIFAR-10/100 및 SVHN에서의 실증 테스트를 포함합니다.
Adversarial training (AT) is among the most effective techniques to improve model robustness by augmenting training data with adversarial examples. However, most existing AT methods adopt a specific attack to craft adversarial examples, leading to the unreliable robustness against other unseen attacks. Besides, a single attack algorithm could be insufficient to explore the space of perturbations. In this paper, we introduce adversarial distributional training (ADT), a novel framework for learning robust models. ADT is formulated as a minimax optimization problem, where the inner maximization aims to learn an adversarial distribution to characterize the potential adversarial examples around a natural one under an entropic regularizer, and the outer minimization aims to train robust models by minimizing the expected loss over the worst-case adversarial distributions. Through a theoretical analysis, we develop a general algorithm for solving ADT, and present three approaches for parameterizing the adversarial distributions, ranging from the typical Gaussian distributions to the flexible implicit ones. Empirical results on several benchmarks validate the effectiveness of ADT compared with the state-of-the-art AT methods.
연구 동기 및 목표
- 단일 공격 학습보다 보이지 않는 적대적 공격에 대한 강건성 확보를 동기화한다.
- 扰动을 점이 아닌 분포로 취급하는 분포형 미니맥스 형식을 도입한다.
- Delta 분포로의 붕괴를 방지하고 다양한 적대적 예시를 장려하도록 정규화한다.
- 세 가지 실용적 적대적 분포 인스턴에 대한 제시와 이들의 강건성에 대한 영향을 분석한다.
제안 방법
- ADT를 미니맥스 문제로 형식화: min_theta (1/n) sum_i max_p(delta_i) E_{p}[L(f_theta(x_i+delta_i), y_i)].
- 내부 목적에 엔트로피 정규화를 추가하여 Delta 분포로의 편향을 방지한다: J(p, theta) = E_p[L(...)] + lambda H(p).
- 적대적 분포를 세 가지 접근으로 매개변수화한다: (i) ADT EXP는 명시적 가우시안 기반 변환 delta = epsilon*tanh(u), u~N(mu, diag(sigma^2)); (ii) ADT EXP-AM은 x에 조건부로 제너레이터 g_phi를 이용한 암호화된 암시적 분포; (iii) ADT IMP-AM은 잠재 변수 z를 가진 제너레이터와 변분 엔트로피 추정치를 통한 암시적 밀도 방식.
- Danskin 유사 순차 최적화를 기반으로 한 일반 알고리즘(Alg. 1)을 제공한다: 내부 최대를 해결해 p*를 얻고, 그 다음 p*에서의 J의 기울기로 theta를 업데이트한다.
실험 결과
연구 질문
- RQ11) 적대적扰动에 대한 분포를 학습하는 것이 점 기반의 적대적 학습에 비해 더 넓은 범위의 공격에 대한 강건성을 향상시킬 수 있는가?
- RQ22) 엔트로피 정규화가 학습된 적대적扰动의 다양성과 효과에 어떤 영향을 미치는가?
- RQ33) 명시적, 매개화-명시적, 암시적 적대적 분포 매개변수가 강건성과 학습 효율성 측면에서 어떻게 비교되는가?
- RQ44) ADT 방법은 표준 벤치마크에서 화이트박스 및 블랙박스 공격에 대해 강건성을 유지하는가?
주요 결과
| 모델 | A_nat | FGSM | PGD-20 | PGD-100 | MIM | C&W | FeaAttack | A_rob |
|---|---|---|---|---|---|---|---|---|
| Standard | 94.81% | 12.05% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% | 0.00% |
| AT FGSM | 93.80% | 79.86% | 0.12% | 0.04% | 0.06% | 0.13% | 0.01% | 0.01% |
| AT PGD † | 87.25% | 56.04% | 45.88% | 45.33% | 47.15% | 46.67% | 0? | 46.01% |
| AT PGD | 86.91% | 58.30% | 50.03% | 49.40% | 51.40% | 50.23% | 0? | 50.46% |
| ALP | 86.81% | 56.83% | 48.97% | 48.60% | 50.13% | 49.10% | 0? | 48.51% |
| FeaScatter | 89.98% | 77.40% | 70.85% | 68.81% | 72.74% | 58.46% | 37.45% | 37.40% |
| ADT EXP | 86.89% | 60.41% | 52.18% | 51.69% | 53.27% | 52.49% | 52.38% | 50.56% |
| ADT EXP-AM | 87.82% | 62.42% | 51.95% | 51.26% | 52.99% | 51.75% | 52.04% | 50.04% |
| ADT IMP-AM | 88.00% | 64.89% | 52.28% | 51.23% | 52.64% | 52.65% | 51.89% | 49.81% |
- ADT 기반 방법은 표준 학습 및 경쟁적 적대적 학습과 비교하여 화이트 박스 공격(FGSM, PGD 변형, MIM, C&W, FeaAttack) 세트에 대해 일관되게 강건성을 향상시킨다.
- CIFAR-10/10에서 화이트박스 공격 하에 ADT 변형은 다수의 베이스라인보다 높은 공격-강건 정확도에 도달하며, 일부 설정에서 EXP가 EXP-AM 및 IMP-AM보다 종종 우수하다.
- ADT 기반 방법은 블랙박스 전이 및 SPSA 질의에서 더 나은 강건성을 보이며 기울기 마스킹이 감소하고 실질적 강건성 이득이 있음을 시사한다.
- 엔트로피 정규화는 적대적 분포가 더 넓은扰动 공간을 다루게 하여 자연 입력 주위의 손실 지형을 더 매끄럽게 만든다.
- 암호화된 변형(EXP-AM, IMP-AM)은 유사한 강건성으로 더 빠른 학습을 제공하지만, 명시적 EXP가 특정 경우에 더 강한 방어를 제공할 수 있다.
- CIFAR-10, CIFAR-100, SVHN에 대한 실증 결과는 ADT가 최신 AT 방법에 대해 효과적임을 확인한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.