QUICK REVIEW

[논문 리뷰] Randomized Smoothing of All Shapes and Sizes

Greg Yang, Tony Duan|arXiv (Cornell University)|2020. 02. 19.

Adversarial Robustness in Machine Learning참고 문헌 59인용 수 29

한 줄 요약

이 논문은 Wulff 결정체를 사용하여 임의의 노름에 대해 최적의 스무딩 분포를 식별하는 일반적인 랜덤 스무딩 프레임워크를 제안한다. 또한 어떤 스무딩 분포에 대해서도 증명 가능한 강건성 반경을 도출하기 위한 두 가지 새로운 방법을 제안하고, 반바흐 공간의 코타이피 이론을 통해 기본적인 한계를 설정한다. 안정성 훈련과 사전 훈련을 활용하여 CIFAR-10과 ImageNet에서 ℓ₁ 강건성에 대해 최신 기준 성능을 달성하였으며, ℓ₁ 반경이 1.5 이상일 경우 성능 향상이 30%를 초과한다.

ABSTRACT

Randomized smoothing is the current state-of-the-art defense with provable robustness against $\ell_2$ adversarial attacks. Many works have devised new randomized smoothing schemes for other metrics, such as $\ell_1$ or $\ell_\infty$; however, substantial effort was needed to derive such new guarantees. This begs the question: can we find a general theory for randomized smoothing? We propose a novel framework for devising and analyzing randomized smoothing schemes, and validate its effectiveness in practice. Our theoretical contributions are: (1) we show that for an appropriate notion of "optimal", the optimal smoothing distributions for any "nice" norms have level sets given by the norm's *Wulff Crystal*; (2) we propose two novel and complementary methods for deriving provably robust radii for any smoothing distribution; and, (3) we show fundamental limits to current randomized smoothing techniques via the theory of *Banach space cotypes*. By combining (1) and (2), we significantly improve the state-of-the-art certified accuracy in $\ell_1$ on standard datasets. Meanwhile, we show using (3) that with only label statistics under random input perturbations, randomized smoothing cannot achieve nontrivial certified accuracy against perturbations of $\ell_p$-norm $Ω(\min(1, d^{\frac{1}{p} - \frac{1}{2}}))$, when the input dimension $d$ is large. We provide code in github.com/tonyduan/rs4a.

연구 동기 및 목표

다양한 교란 노름에 걸쳐 기존 접근법을 통합하고 확장하는 일반 이론을 개발하는 것.
어떤 '좋은' 노름에 대해서도 최적의 스무딩 분포를 식별하여, 이들이 노름의 Wulff 결정체와 대응됨을 보여주는 것.
어떤 스무딩 분포에 대해서도 증명 가능한 강건성 반경을 계산하기 위한 두 가지 새로운 상호보완적 방법을 도입하는 것.
반바흐 공간의 코타이피 이론을 사용하여 랜덤 스무딩의 기본 이론적 한계를 설정하는 것.
표준 벤치마크에서 ℓ₁-노름 공격자에 대해 최신 기준 성능의 인증 강건 정확도를 달성하는 것.

제안 방법

Wulff 결정체를 통해 노름의 기하학적 특성과 최적의 스무딩 분포를 연결하는 일반적 프레임워크를 제안하며, 이는 최적의 스무딩 분포의 등치면을 구성한다.
강건성 인증을 위한 두 가지 새로운 방법을 도입: 하나는 농도 불등식에 기반하고, 다른 하나는 거리 매핑과 코타이피 이론에 기반한다.
반바흐 공간의 코타이피 이론을 활용하여, 교란 하에서 레이블 통계자료만 이용 가능한 경우의 달성 가능한 강건성 반경에 하한을 도출한다.
실제 성능 향상을 위해 안정성 훈련, 준지도 학습 및 ImageNet 사전 훈련을 활용한다.
노름에 대한 최적의 스무딩 분포는 주어진 노이즈 분산에서 기대 강건성 반경을 최소화하는 등치면이 그 노름의 Wulff 결정체와 일치함을 도출한다.
Khintchine의 부등식과 거리 매핑 정리들을 활용하여 코타이피 상수와 선형 매핑의 왜곡을 연결함으로써, 강건성에 대한 이론적 한계를 가능하게 한다.

실험 결과

연구 질문

RQ1어떤 주어진 노름에 대해 최적의 스무딩 분포는 무엇이며, 이는 노름의 기하학과 어떻게 관련되어 있는가?
RQ2일반화 가능한 방법을 사용하여 어떤 스무딩 분포에 대해서도 증명 가능한 강건성 반경을 도출할 수 있는가?
RQ3레이블 통계자료만 이용 가능한 경우, 랜덤 스무딩의 기본 이론적 한계는 무엇인가?
RQ4ImageNet과 CIFAR-10에서 ℓ₁-노름 공격자에 대해 최신 기준 성능의 인증 강건성을 달성할 수 있는가?
RQ5Wulff 결정체 구조를 사용하여 기존의 랜덤 스무딩 기법들을 통합하고 개선할 수 있는가?

주요 결과

어떤 '좋은' 노름에 대해서든 최적의 스무딩 분포는 그 노름의 Wulff 결정체의 등치면을 이루며, 이는 최적성의 기하학적 특성화를 제공한다.
제안된 강건성 반경 계산 방법은 CIFAR-10과 ImageNet에서 ℓ₁-노름 강건성에 대해 인증 정확도를 크게 향상시킨다.
안정성 훈련과 사전 훈련을 활용한 결과, CIFAR-10에서 ℓ₁ 반경이 1.5 이상일 경우 이전 최신 기준 성능 대비 30% 이상 높은 인증 정확도를 달성한다.
ImageNet에서는 ℓ₁ 반경 0.5일 때 60%의 인증 상위-1 정확도를 기록했으며, 반경 4.0일 땐 39%를 달성하여 이전 작업을 능가한다.
CIFAR-10에서는 ℓ₁ 반경 0.5일 때 74%의 인증 정확도를 기록했고, 반경 4.0일 땐 31%를 달성하여 이전 최신 기준 성능 대비 최대 33% 향상되었다.
이론적 분석 결과, 레이블 통계자료만 사용할 경우, 랜덤 스무딩은 ℓₚ 교란에 대해 Ω(min(1, d^{1/p - 1/2}))를 초과하는 비트리비얼 인증 정확도를 달성할 수 없다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.