[논문 리뷰] Certified Adversarial Robustness via Randomized Smoothing
이 논문은 가우시안 노이즈를 추가하여 임의의 기본 분류기로부터 구축된 스무딩된 분류기에 대한 타이트한 L2 강인성 보장을 증명하여, ImageNet 및 다른 데이터셋에서 입증 가능한 강인 정확도를 가능하게 한다.
We show how to turn any classifier that classifies well under Gaussian noise into a new classifier that is certifiably robust to adversarial perturbations under the $\ell_2$ norm. This "randomized smoothing" technique has been proposed recently in the literature, but existing guarantees are loose. We prove a tight robustness guarantee in $\ell_2$ norm for smoothing with Gaussian noise. We use randomized smoothing to obtain an ImageNet classifier with e.g. a certified top-1 accuracy of 49% under adversarial perturbations with $\ell_2$ norm less than 0.5 (=127/255). No certified defense has been shown feasible on ImageNet except for smoothing. On smaller-scale datasets where competing approaches to certified $\ell_2$ robustness are viable, smoothing delivers higher certified accuracies. Our strong empirical results suggest that randomized smoothing is a promising direction for future research into adversarially robust classification. Code and models are available at http://github.com/locuslab/smoothing.
연구 동기 및 목표
- 대규모 분류기(신경망 외의 경우 포함)에 대한 인증 가능한 강인성 동기 부여.
- 임의의 기본 분류기를 증명 가능한 강인한 스무딩 분류기로 변환하기 위한 무작위 스무딩 도입.
- 가우시안 노이즈를 사용한 스무딩에 대해 차원에 독립적인 타이트한 L2 강인성 경계 도출.
- 대형 기본 모델을 사용하여 ImageNet 및 더 작은 데이터셋에서 높은 인증 정확도 입증.
제안 방법
- 스무딩된 분류기 g(x)를 기본 분류기 f가 노이즈 있는 입력 N(x, sigma^2 I) 하에서 얻는 가장 가능성이 높은 레이블로 정의한다.
- 타이트한 L2 강인성 보장: R = (sigma/2) (Phi^{-1}(p_A) - Phi^{-1}(p_B))를 f가 노이즈 입력에서 계산한 확률 p_A와 p_B에서 얻는다.
- g가 x를 중심으로 반경 R까지의 L2 볼 내부에서 강인하다는 것을 p_A와 p_B의 경계로 보인다.
- 고려된 확률 경계 하에서 g(x)를 추정하고 높은 확률로 강인성을 인증하기 위한 몬테카를로 절차(Predict and Certify)를 제공한다.
- 노이즈가 있는 입력에서 일관되게 분류하도록 Gaussian 데이터 증가를 사용하여 기본 분류기 f를 학습시킨다.
- 기존 인증 방어책과 비교하고 ResNet-50을 기본 분류기로 사용하는 ImageNet로의 확장성을 시연한다.
실험 결과
연구 질문
- RQ1가우시안 노이즈를 이용한 무작위 스무딩이 임의의 기본 분류기에 대해 입증 가능한 L2 강인성 보장을 제공할 수 있는가?
- RQ2최상위 클래스 확률 p_A와 러너업 확률 p_B에 의해 달성 가능한 정확한 인증 L2 반지름은 얼마인가?
- RQ3이 접근법은 대규모 데이터셋(ImageNet) 및 대형 기본 네트워크에 어떻게 확장되는가?
- RQ4예측(Predict) 및 인증(Certify)을 위한 제안된 몬테카를로 추정 절차는 실제로 어떻게 동작하는가?
주요 결과
| Radius r (L2) | Best sigma | Cert. Acc (%) | Std. Acc (%) |
|---|---|---|---|
| 0.5 | 0.25 | 49 | 67 |
| 1.0 | 0.50 | 37 | 57 |
| 2.0 | 0.50 | 19 | 57 |
| 3.0 | 1.00 | 12 | 44 |
- 정리 1은 verifiable bounds on p_A 및 p_B에서 타이트한 L2 인증 반지름 R = (sigma/2)(Phi^{-1}(p_A) - Phi^{-1}(p_B))를 제공한다.
- 실험은 반경 0.5(127/255)에서 ImageNet 인증 상위 1 정확도 49%, 반경 1.0에서 37%를 보인다.
- CIFAR-10 및 ImageNet 실험은 기준선과 비교하여 무작위 스무딩을 통한 인증 정확도가 향상됨을 보여준다.
- 스무딩은 크고 표현력이 풍부한 기본 네트워크의 사용을 가능하게 하며, 다른 방어책이 확장에 어려움을 겪는 영역에서 인증 강인성을 달성한다.
- 스무딩을 통한 예측(Predict)은 빠르나 기권할 수 있으며, 인증(Certify)은 높은 확률의 강인성 보장을 제공한다.
- 이 접근법은 ImageNet 분류 작업을 포함한 대규모 모델에 대해 증명 가능한 강인성을 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.