[논문 리뷰] Towards Deep Learning Models Resistant to Adversarial Attacks
본 논문은 적대적 강건성을 강건 최적화(최소-최대) 문제로 프레이밍하고, PGD 기반 적대적 학습을 사용하여 고용량 네트워크를 학습하며, MNIST와 CIFAR-10에 대해 광범위한 공격에 대해 강한 강건성을 입증한다.
Recent work has demonstrated that deep neural networks are vulnerable to adversarial examples---inputs that are almost indistinguishable from natural data and yet classified incorrectly by the network. In fact, some of the latest findings suggest that the existence of adversarial attacks may be an inherent weakness of deep learning models. To address this problem, we study the adversarial robustness of neural networks through the lens of robust optimization. This approach provides us with a broad and unifying view on much of the prior work on this topic. Its principled nature also enables us to identify methods for both training and attacking neural networks that are reliable and, in a certain sense, universal. In particular, they specify a concrete security guarantee that would protect against any adversary. These methods let us train networks with significantly improved resistance to a wide range of adversarial attacks. They also suggest the notion of security against a first-order adversary as a natural and broad security guarantee. We believe that robustness against such well-defined classes of adversaries is an important stepping stone towards fully resistant deep learning models. Code and pre-trained models are available at https://github.com/MadryLab/mnist_challenge and https://github.com/MadryLab/cifar10_challenge.
연구 동기 및 목표
- 심층 신경망이 적대적 예제에 취약한 이유를 설명하고 원칙에 입각한 강건성 목표를 설정한다.
- 내부의 적대적 공격과 외부의 학습 목표를 결합한 샤들 포인트(최솟값-최댓값) 최적화 문제로 적대적 강건성을 공식화한다.
- 내부 공격의 최적화 지형과 강건성에서 네트워크 용량의 역할을 조사한다.
- 광범위한 적대적 공격에 대해 강건한 모델을 제공하는 학습 방법론을 개발하고 평가한다.
- 강력한 벤치마크를 제공하고 커뮤니티 공격을 초대하여 강건성을 평가한다.
제안 방법
- 강건 최적화 프레임워크를 채택한다: 매개변수 theta에 대해 기대적 적대적 손실 rho(theta) = E[(x,y)~D]{ max_{delta in S} L(theta, x+delta, y) }를 최소화한다.
- S가 ell∞ 구(b)일 때 내부 최대화에 대해 PGD(프로젝티드 그래디언트 디센트)를 보편적 1차 공격자로 취급한다.
- 적대적으로 섭입된 입력에 대해 SGD로 외부 최소화를 해결하여 적대적 학습을 수행한다.
- Danskin의 정리에 대한 직관을 적용하여 내부 최적화 지점에서의 기울기가 샤들 포인트를 위한 하강 방향임을 정당화한다.
- 다중 시작 PGD를 통해 내부 최대화의 손실 지형을 조사하고 적대적 최대값의 집중(concentration)을 분석한다.
- 강한 적대자에 대해 평가하고 모델 크기를 확장하여 네트워크 용량이 강건성에 미치는 영향을 탐구한다.
실험 결과
연구 질문
- RQ1PGD와 같은 일차 공격자들이 딥 네트워크에 대한 강건 optim화 공식화의 내부 최대화를 신뢰할 수 있게 해결하는가?
- RQ2네트워크 용량을 증가시키면 적대적 공격에 대한 강건성이 향상되는가, 그리고 FGSM 학습은 PGD 학습과 비교해 어떤 차이가 있는가?
- RQ3PGD에 대한 적대적 학습이 모델 간 및 아키텍처 간 적대적 예제의 전이성에 어떤 영향을 미치는가?
- RQ4강건성이 PGD에 대한 좋은 프록시가 되어 더 넓은 클래스의 일차 공격자 및 특정 블랙박스 공격에 대한 강건성을 잘 반영하는가?
- RQ5광범위한 적대적 공격에 대해 MNIST와 CIFAR-10에서 실현 가능한 정확도는 무엇인가?
주요 결과
- 내부 적대적 최적화 지형은 1차 방법에 대해 취급 가능하고 재시도 간 최대값의 집중이 나타난다.
- 모델 용량은 강건성을 크게 향상시키며, 더 큰 네트워크가 더 강한 적대자에서도 살아남고 적대적 입력의 전달성(전이 가능성)이 감소한다.
- PGD를 이용한 적대적 학습은 MNIST와 CIFAR-10에서 강건성을 크게 보여주며, 같은 강력한 흰박스 공격에서 MNIST가 89%대 이상의 정확도, CIFAR-10은 약 46%의 정확도를 달성한다.
- 약한 블랙박스/전이 공격하에서 MNIST와 CIFAR-10 모델은 각각 95% 이상과 64% 이상의 정확도를 달성한다.
- FGSM 기반 학습은 과적합(레이블 누출)이 발생할 수 있으며 종종 PGD 공격에 견디지 못하는 반면, PGD 학습은 강한 반복 공격에 더 나은 저항성을 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.