QUICK REVIEW

[논문 리뷰] Robust Neural Networks using Randomized Adversarial Training

Alexandre Araujo, Laurent Meunier|arXiv (Cornell University)|2019. 03. 25.

Adversarial Robustness in Machine Learning참고 문헌 27인용 수 25

한 줄 요약

이 논문은 $\varepsilon$-유계 적대적 훈련과 랜덤 노이즈 주입을 조합한 Randomized Adversarial Training (RAT)을 제안한다. 이 방법은 $\varepsilon$-유계 $\ell_{\infty}$ 및 $\ell_2$ 적대적 공격에 대해 신경망을 보호한다. RAT는 적대적 훈련과 랜덤 스무딩의 상호보완적 강점을 활용하여 우수한 강건성을 확보하며, Wide-ResNet 28-10을 사용한 CIFAR-10에서 강력한 C&W 공격에 대해 0.39의 테스트 정확도를 유지한다. 이는 기존 혼합 방어 전략을 능가한다.

ABSTRACT

This paper tackles the problem of defending a neural network against adversarial attacks crafted with different norms (in particular $\ell_\infty$ and $\ell_2$ bounded adversarial examples). It has been observed that defense mechanisms designed to protect against one type of attacks often offer poor performance against the other. We show that $\ell_\infty$ defense mechanisms cannot offer good protection against $\ell_2$ attacks and vice-versa, and we provide both theoretical and empirical insights on this phenomenon. Then, we discuss various ways of combining existing defense mechanisms in order to train neural networks robust against both types of attacks. Our experiments show that these new defense mechanisms offer better protection when attacked with both norms.

연구 동기 및 목표

기존 방어 전략이 $\ell_{\infty}$ 또는 $\ell_2$ 중 하나의 적대적 공격에만 효과적인 점을 메우기 위해.
적대적 훈련과 랜덤 노이즈 주입을 조합함으로써 다중 공격 노름에 강건한 모델을 얻을 수 있는지 조사하기 위해.
혼합 방어 전략, 특히 혼합 적대적 훈련(MAT), 혼합 노이즈 주입(MNI), 그리고 제안된 랜덤화된 적대적 훈련(RAT)의 성능을 평가하고 비교하기 위해.
고차원 공간에서 $\ell_{\infty}$ 및 $\ell_2$ 적대적 구의 상호배제적 성격에 대한 이론적이고 경험적인 근거를 제공하기 위해.

제안 방법

적대적 예제를 $\ell_{\infty}$ 및 $\ell_2$ 노름 모두에서 생성하고 훈련 중에 랜덤 노이즈 주입을 통합하는 Randomized Adversarial Training (RAT) 훈련 절차를 제안한다.
정상 데이터에 대한 표준 크로스 엔트로피 손실, $\ell_{\infty}$-유계 변형에 대한 적대적 손실, $\ell_2$-유계 변형에 대한 적대적 손실을 포함하는 하이브리드 훈련 목표 함수를 사용한다.
강건성을 향상시키기 위해 테스트 시점에 Expectation Over Transformation (EOT)을 사용하여 균일 및 정규 분포에서 유래한 노이즈를 주입한다.
백색 상자, 비타겟 설정에서 평가하기 위해 PGD(20회 반복) 및 C&W(60회 반복) 공격을 사용하며, $\varepsilon_{\infty} = 0.031$ 및 $\varepsilon_2 = 0.83$로 설정하여 강력하고 비교 가능한 공격 강도를 확보한다.
RAT를 MAT(혼합 적대적 훈련) 및 MNI(혼합 노이즈 주입)와 비교하여 다양한 공격 유형에 대한 강건성을 평가한다.
표준 하이퍼파rameter를 사용하고 4개의 V100 GPU를 활용하여 Wide-ResNet 28-10을 CIFAR-10에서 최대 2일간 훈련하여 수렴을 보장한다.

실험 결과

연구 질문

RQ1$\ell_{\infty}$-방어 모델이 $\ell_2$-기반 공격에 실패하고, 반대로 $\ell_2$-방어 모델이 $\ell_{\infty}$-기반 공격에 실패하는 이유는 무엇인가? (비록 변형 부피가 유사하더라도)
RQ2적대적 훈련과 랜덤 노이즈 주입을 조합하면 $\ell_{\infty}$ 및 $\ell_2$ 적대적 공격에 모두 강건한 모델을 얻을 수 있는가?
RQ3다양한 노이즈 유형과 그 조합은 랜덤화된 방어에서 강건성에 어떤 영향을 미치는가?
RQ4Randomized Adversarial Training (RAT)은 C&W 공격과 같은 강력한 최신 공격에 대해 기존 혼합 방어 전략(MAT 및 MNI)을 능가하는가?
RQ5고차원 입력 공간에서 $\ell_{\infty}$ 및 $\ell_2$ 적대적 구의 겹침이 낮은 이유는 기하학적으로 무엇인가?

주요 결과

CIFAR-10과 같은 고차원 공간에서 $\ell_{\infty}$ 및 $\ell_2$ 적대적 구는 대부분 상호배제적이며, 이는 한 노름에 대해 효과적인 방어가 다른 노름에선 실패하는 이유를 설명한다.
혼합 적대적 훈련(MAT)은 PGD 공격에 대해 강력한 방어를 제공하지만 C&W 공격에선 실패하여 공격 유형 간 일반화 능력에 한계가 있음을 시사한다.
혼합 노이즈 주입(MNI)은 C&W 공격에 대해 더 나은 성능을 보이나 $\ell_{\infty}$ 노름 기반의 PGD 공격에 대해 약한 보호 기능을 제공한다.
랜덤화된 적대적 훈련(RAT)은 C&W 공격에 대해 최소 0.39의 강건 정확도를 달성하여 MNI(정규 노이즈 사용 시 0.22) 및 MAT를 크게 능가한다.
$\ell_{\infty}$-적대적 예제와 균일 노이즈 주입을 사용한 RAT가 두 공격 유형 모두에 대해 가장 우수한 균형을 이룬다.
이론적 분석은 $\ell_{\infty}$ 및 $\ell_2$ 구의 겹침이 차원 수가 증가함에 따라 기하급수적으로 감소함을 확인하며, 이는 단일 노름 방어의 실패 원인을 설명한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.