QUICK REVIEW

[논문 리뷰] Certified Adversarial Robustness via Randomized Smoothing

Jeremy M. Cohen, Elan Rosenfeld|arXiv (Cornell University)|2019. 02. 08.

Adversarial Robustness in Machine Learning인용 수 620

한 줄 요약

이 논문은 가우시안 노이즈를 추가하여 임의의 기본 분류기로부터 구축된 스무딩된 분류기에 대한 타이트한 L2 강인성 보장을 증명하여, ImageNet 및 다른 데이터셋에서 입증 가능한 강인 정확도를 가능하게 한다.

ABSTRACT

We show how to turn any classifier that classifies well under Gaussian noise into a new classifier that is certifiably robust to adversarial perturbations under the $\ell_2$ norm. This "randomized smoothing" technique has been proposed recently in the literature, but existing guarantees are loose. We prove a tight robustness guarantee in $\ell_2$ norm for smoothing with Gaussian noise. We use randomized smoothing to obtain an ImageNet classifier with e.g. a certified top-1 accuracy of 49% under adversarial perturbations with $\ell_2$ norm less than 0.5 (=127/255). No certified defense has been shown feasible on ImageNet except for smoothing. On smaller-scale datasets where competing approaches to certified $\ell_2$ robustness are viable, smoothing delivers higher certified accuracies. Our strong empirical results suggest that randomized smoothing is a promising direction for future research into adversarially robust classification. Code and models are available at http://github.com/locuslab/smoothing.

연구 동기 및 목표

대규모 분류기(신경망 외의 경우 포함)에 대한 인증 가능한 강인성 동기 부여.
임의의 기본 분류기를 증명 가능한 강인한 스무딩 분류기로 변환하기 위한 무작위 스무딩 도입.
가우시안 노이즈를 사용한 스무딩에 대해 차원에 독립적인 타이트한 L2 강인성 경계 도출.
대형 기본 모델을 사용하여 ImageNet 및 더 작은 데이터셋에서 높은 인증 정확도 입증.

제안 방법

스무딩된 분류기 g(x)를 기본 분류기 f가 노이즈 있는 입력 N(x, sigma^2 I) 하에서 얻는 가장 가능성이 높은 레이블로 정의한다.
타이트한 L2 강인성 보장: R = (sigma/2) (Phi^{-1}(p_A) - Phi^{-1}(p_B))를 f가 노이즈 입력에서 계산한 확률 p_A와 p_B에서 얻는다.
g가 x를 중심으로 반경 R까지의 L2 볼 내부에서 강인하다는 것을 p_A와 p_B의 경계로 보인다.
고려된 확률 경계 하에서 g(x)를 추정하고 높은 확률로 강인성을 인증하기 위한 몬테카를로 절차(Predict and Certify)를 제공한다.
노이즈가 있는 입력에서 일관되게 분류하도록 Gaussian 데이터 증가를 사용하여 기본 분류기 f를 학습시킨다.
기존 인증 방어책과 비교하고 ResNet-50을 기본 분류기로 사용하는 ImageNet로의 확장성을 시연한다.

실험 결과

연구 질문

RQ1가우시안 노이즈를 이용한 무작위 스무딩이 임의의 기본 분류기에 대해 입증 가능한 L2 강인성 보장을 제공할 수 있는가?
RQ2최상위 클래스 확률 p_A와 러너업 확률 p_B에 의해 달성 가능한 정확한 인증 L2 반지름은 얼마인가?
RQ3이 접근법은 대규모 데이터셋(ImageNet) 및 대형 기본 네트워크에 어떻게 확장되는가?
RQ4예측(Predict) 및 인증(Certify)을 위한 제안된 몬테카를로 추정 절차는 실제로 어떻게 동작하는가?

주요 결과

Radius r (L2)	Best sigma	Cert. Acc (%)	Std. Acc (%)
0.5	0.25	49	67
1.0	0.50	37	57
2.0	0.50	19	57
3.0	1.00	12	44

정리 1은 verifiable bounds on p_A 및 p_B에서 타이트한 L2 인증 반지름 R = (sigma/2)(Phi^{-1}(p_A) - Phi^{-1}(p_B))를 제공한다.
실험은 반경 0.5(127/255)에서 ImageNet 인증 상위 1 정확도 49%, 반경 1.0에서 37%를 보인다.
CIFAR-10 및 ImageNet 실험은 기준선과 비교하여 무작위 스무딩을 통한 인증 정확도가 향상됨을 보여준다.
스무딩은 크고 표현력이 풍부한 기본 네트워크의 사용을 가능하게 하며, 다른 방어책이 확장에 어려움을 겪는 영역에서 인증 강인성을 달성한다.
스무딩을 통한 예측(Predict)은 빠르나 기권할 수 있으며, 인증(Certify)은 높은 확률의 강인성 보장을 제공한다.
이 접근법은 ImageNet 분류 작업을 포함한 대규모 모델에 대해 증명 가능한 강인성을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.