Skip to main content
QUICK REVIEW

[논문 리뷰] Certified Adversarial Robustness via Randomized Smoothing

Jeremy M. Cohen, Elan Rosenfeld|arXiv (Cornell University)|2019. 02. 08.
Adversarial Robustness in Machine Learning인용 수 620
한 줄 요약

이 논문은 가우시안 노이즈를 추가하여 임의의 기본 분류기로부터 구축된 스무딩된 분류기에 대한 타이트한 L2 강인성 보장을 증명하여, ImageNet 및 다른 데이터셋에서 입증 가능한 강인 정확도를 가능하게 한다.

ABSTRACT

We show how to turn any classifier that classifies well under Gaussian noise into a new classifier that is certifiably robust to adversarial perturbations under the $\ell_2$ norm. This "randomized smoothing" technique has been proposed recently in the literature, but existing guarantees are loose. We prove a tight robustness guarantee in $\ell_2$ norm for smoothing with Gaussian noise. We use randomized smoothing to obtain an ImageNet classifier with e.g. a certified top-1 accuracy of 49% under adversarial perturbations with $\ell_2$ norm less than 0.5 (=127/255). No certified defense has been shown feasible on ImageNet except for smoothing. On smaller-scale datasets where competing approaches to certified $\ell_2$ robustness are viable, smoothing delivers higher certified accuracies. Our strong empirical results suggest that randomized smoothing is a promising direction for future research into adversarially robust classification. Code and models are available at http://github.com/locuslab/smoothing.

연구 동기 및 목표

  • 대규모 분류기(신경망 외의 경우 포함)에 대한 인증 가능한 강인성 동기 부여.
  • 임의의 기본 분류기를 증명 가능한 강인한 스무딩 분류기로 변환하기 위한 무작위 스무딩 도입.
  • 가우시안 노이즈를 사용한 스무딩에 대해 차원에 독립적인 타이트한 L2 강인성 경계 도출.
  • 대형 기본 모델을 사용하여 ImageNet 및 더 작은 데이터셋에서 높은 인증 정확도 입증.

제안 방법

  • 스무딩된 분류기 g(x)를 기본 분류기 f가 노이즈 있는 입력 N(x, sigma^2 I) 하에서 얻는 가장 가능성이 높은 레이블로 정의한다.
  • 타이트한 L2 강인성 보장: R = (sigma/2) (Phi^{-1}(p_A) - Phi^{-1}(p_B))를 f가 노이즈 입력에서 계산한 확률 p_A와 p_B에서 얻는다.
  • g가 x를 중심으로 반경 R까지의 L2 볼 내부에서 강인하다는 것을 p_A와 p_B의 경계로 보인다.
  • 고려된 확률 경계 하에서 g(x)를 추정하고 높은 확률로 강인성을 인증하기 위한 몬테카를로 절차(Predict and Certify)를 제공한다.
  • 노이즈가 있는 입력에서 일관되게 분류하도록 Gaussian 데이터 증가를 사용하여 기본 분류기 f를 학습시킨다.
  • 기존 인증 방어책과 비교하고 ResNet-50을 기본 분류기로 사용하는 ImageNet로의 확장성을 시연한다.

실험 결과

연구 질문

  • RQ1가우시안 노이즈를 이용한 무작위 스무딩이 임의의 기본 분류기에 대해 입증 가능한 L2 강인성 보장을 제공할 수 있는가?
  • RQ2최상위 클래스 확률 p_A와 러너업 확률 p_B에 의해 달성 가능한 정확한 인증 L2 반지름은 얼마인가?
  • RQ3이 접근법은 대규모 데이터셋(ImageNet) 및 대형 기본 네트워크에 어떻게 확장되는가?
  • RQ4예측(Predict) 및 인증(Certify)을 위한 제안된 몬테카를로 추정 절차는 실제로 어떻게 동작하는가?

주요 결과

Radius r (L2)Best sigmaCert. Acc (%)Std. Acc (%)
0.50.254967
1.00.503757
2.00.501957
3.01.001244
  • 정리 1은 verifiable bounds on p_A 및 p_B에서 타이트한 L2 인증 반지름 R = (sigma/2)(Phi^{-1}(p_A) - Phi^{-1}(p_B))를 제공한다.
  • 실험은 반경 0.5(127/255)에서 ImageNet 인증 상위 1 정확도 49%, 반경 1.0에서 37%를 보인다.
  • CIFAR-10 및 ImageNet 실험은 기준선과 비교하여 무작위 스무딩을 통한 인증 정확도가 향상됨을 보여준다.
  • 스무딩은 크고 표현력이 풍부한 기본 네트워크의 사용을 가능하게 하며, 다른 방어책이 확장에 어려움을 겪는 영역에서 인증 강인성을 달성한다.
  • 스무딩을 통한 예측(Predict)은 빠르나 기권할 수 있으며, 인증(Certify)은 높은 확률의 강인성 보장을 제공한다.
  • 이 접근법은 ImageNet 분류 작업을 포함한 대규모 모델에 대해 증명 가능한 강인성을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.