[논문 리뷰] Certified Defenses against Adversarial Examples
이 논문은 두 층 신경망에 대해 검증 가능하고 학습 가능한 적대적 예 방어를 제시한다. 이 방어는 합의 가능한(relates to) 강건성 증명을 위한 Semidefinite Relaxation을 사용하고, 모델 매개변수와 함께 강건성 증명을 최적화하기 위한 이중 학습(Dual training) 목적을 도입한다.
While neural networks have achieved high accuracy on standard image classification benchmarks, their accuracy drops to nearly zero in the presence of small adversarial perturbations to test inputs. Defenses based on regularization and adversarial training have been proposed, but often followed by new, stronger attacks that defeat these defenses. Can we somehow end this arms race? In this work, we study this problem for neural networks with one hidden layer. We first propose a method based on a semidefinite relaxation that outputs a certificate that for a given network and test input, no attack can force the error to exceed a certain value. Second, as this certificate is differentiable, we jointly optimize it with the network parameters, providing an adaptive regularizer that encourages robustness against all attacks. On MNIST, our approach produces a network and a certificate that no attack that perturbs each pixel by at most ε= 0.1 can cause more than 35% test error.
연구 동기 및 목표
- 적대적 삽입 perturbation 내에서 강건한 분류를 위한 l_infinity 구역을 고려한다.
- 1개의 숨겨진 층을 갖는 네트워크에 대해 Worst-case 적대적 손실을 상한하는 트렌스포머 가능한 증명서를 개발한다.
- 학습 중 강건성을 촉진하기 위해 증명서에서 파생된 학습 가능 정규화 항을 제공한다.
- MNIST에서 검증 가능하게 강건한 네트워크를 만들어내는 실용적 방법을 제시한다.
- 효과성과 확장성 평가를 위해 대안적 경계 및 선행 연구와 비교한다.
제안 방법
- 정확한 클래스 y에 대해 클래스 i에 대한 마진 f^i(x) = f^i(x) - f^y(x)를 정의한다.
- 공격 경로에 걸친 그래디언트를 적분하고 섭동 구역에서 ||∇f(·)||_1로 상한을 얻어 worst-case 공격 f(A(x))의 상한을 도출한다.
- 2-layer 신경망에 대한 bound를 특수화하여 이차계(bound)를 얻는다( f_QP(x) ).
- 비-볼록 QP를 Semidefinite Program(SDP)로 Relax하여 계산 가능한 Convex 증명서 f_SDP(x)를 얻는다.
- 대칭성 이중성(duality)을 이용해 SDP 내부 최대화를 미분 가능 목적 함수로 변환하고, 확률적 경사 하강법과 함께 학습하도록 한다(식 21).
- 선택적으로 스펙트럴 및 Frobenius 경계(f_spectral, f_frobenius)와 비교하고 학습 시 선택지를 논의한다.
실험 결과
연구 질문
- RQ11층 은닉층을 갖는 신경망에 대해 Worst-case 적대적 손실에 대한 검증 가능 상한을 계산할 수 있는가?
- RQ2이 증명서는 미분 가능하고 robust 모델을 생성하기 위한 학습 목표로 사용될 수 있는가?
- RQ3MNIST 데이터를 분류할 때 SDP 기반 증명서가 다른 경계와 비교하여 얼마나 촘촘한가?
- RQ4SDP 증명서를 사용한 학습이 전통적 방어를 넘어 강한 공격에 대한 실제 강건성을 개선하는가?
- RQ5SDP 기반 접근이 LP 기반 또는 다른 검증 가능 방법과 비교할 때 확장성과 강건성 측면에서 얼마나 우수한가?
주요 결과
| Network | PGD error | SDP bound | LP bound |
|---|---|---|---|
| SDP-NN | 15% | 35% | 99% |
| LP-NN | 22% | 93% | 26% |
- SDP 기반 증명서는 테스트된 네트워크들에서 Frobenius 및 스펙트럼 경계보다 적대적 손실에 대한 상한을 더 촘촘하게 제시한다.
- SDP 증명서를 포함한 학습은 강건성과 검증 가능한 보장을 개선하는 네트워크를 생성하며, 특히 SDP-NN은 MNIST에서 ε=0.1일 때 의미 있는 강건성을 보인다.
- SDP-NN은 MNIST에서 35%의 SDP 상한과 99%의 LP 상한으로 관측된 PGD 오차를 15%로 낮추며 보완적 경계와 네트워크 아키텍처의 영향을 보여준다.
- 단독 적대적 학습(AT-NN)은 일부 공격에 대한 강건성을 향상시키지만 SDP 기반 학습만큼 촘촘한 증명서를 제공하지는 않는다.
- 학습 중 이중 증명서는 전체적으로 해결된 SDP 증명서와 근접하게 일치하여 최적화 중에 실질적인 강건성 추적이 가능하다.
- 관련 연구의 4층 CNN과 비교할 때, 2층 SDP 접근은 자신의 구조적 제약 내에서 경쟁력 있는 강건성을 제공하며, 더 깊은 네트워크가 경계 향상에 기여할 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.