QUICK REVIEW

[논문 리뷰] Tight Certificates of Adversarial Robustness for Randomly Smoothed Classifiers

Guang-He Lee, Yuan Yang|arXiv (Cornell University)|2019. 06. 12.

Adversarial Robustness in Machine Learning참고 문헌 43인용 수 27

한 줄 요약

이 논문은 $\varepsilon$-유계 $\ell_2$ 및 $\ell_0$ 적대적 공격 하에서 무작위로 스무딩된 분류기의 날카운, 확장 가능한 안정성 인증을 제안하며, 계층적 우도 비율 분석과 분류기 고유의 가정을 활용한다. 이는 이미지 및 분자의 데이터셋에서 상태최저 수준의 인증 정확도를 달성하였고, 이는 이산 도메인에서 첫 번째 실용적인 $\ell_0$ 안정성 보장을 제공한다.

ABSTRACT

Strong theoretical guarantees of robustness can be given for ensembles of classifiers generated by input randomization. Specifically, an $\ell_2$ bounded adversary cannot alter the ensemble prediction generated by an additive isotropic Gaussian noise, where the radius for the adversary depends on both the variance of the distribution as well as the ensemble margin at the point of interest. We build on and considerably expand this work across broad classes of distributions. In particular, we offer adversarial robustness guarantees and associated algorithms for the discrete case where the adversary is $\ell_0$ bounded. Moreover, we exemplify how the guarantees can be tightened with specific assumptions about the function class of the classifier such as a decision tree. We empirically illustrate these results with and without functional restrictions across image and molecule datasets.

연구 동기 및 목표

기계학습에서 이산적이고 $\ell_0$-유계 적대자에 대해 날카운, 확장 가능한 안정성 인증의 부족을 해결한다.
등방성 가우시안 노이즈를 초과하는 더 넓은 분포 및 거리 측도로 랜덤라이즈드 스무딩의 이론적 보장을 확장한다.
이산 공간에서 정확하고 날카운 안정성 인증을 가능하게 하기 위해 계층적 우도 비율 분석을 개발한다.
결정 트리와 같은 분류기의 구조적 가정을 통합하여 일반 목적의 경계를 초월해 인증의 날카움을 향상시킨다.
$\ell_0$ 공격 하에서 이미지 및 분자 데이터셋에서 최고 수준의 인증된 안정성을 입증한다.

제안 방법

이산 입력 공간에서 $\ell_0$-유계 적대자에 대해 날카운 안정성 인증을 계산하기 위해 계층적 우도 비율 분석을 제안한다.
각 반경 $r$에 대해 안정성 확보를 위한 최소 신뢰 임계값을 효율적으로 결정하기 위해 $\rho_r^{-1}(0.5)$ 를 사용하는 사전 계산 단계를 도입한다.
분류기 고유의 가정(예: 결정 트리)을 활용하여 일반 목적의 경계를 초월해 안정성 인증을 강화한다.
이상적인 계산 오버헤드를 최소화하면서 확장 가능한 알고리즘을 설계하여 ImageNet과 같은 대규모 데이터셋에의 배포를 가능하게 한다.
등방성 가우시안 랜덤화 하에서 가측 가능한 분류기의 최적이고 날카운 인증을 유도하기 위해 Neyman-Pearson 정리 활용.
동적 프로그래밍과 근사 탐색을 사용하여 이산 특징 공간에서 최악의 $\ell_0$ 적대자를 찾고, 정확한 안정성 평가를 가능하게 한다.

실험 결과

연구 질문

RQ1무작위로 스무딩을 사용하여 이산 입력 공간에서 $\ell_0$-유계 적대자에 대해 날카운, 실용적인 안정성 인증을 도출할 수 있는가?
RQ2기본 분류기의 구조적 가정 하에서 랜덤라이즈드 스무딩 분류기의 안정성 보장을 어떻게 강화할 수 있는가?
RQ3제안된 인증 방법의 확장성과 실세계 이미지 및 분자 데이터셋에서의 실증 성능은 어떠한가?
RQ4계층적 우도 비율 분석은 기존 방법에 비해 인증의 날카움과 계산 효율성 측면에서 어떻게 향상되는가?
RQ5분류기 고유의 가정(예: 결정 트리)은 일반 목적의 경계를 초월해 안정성 인증을 얼마나 향상시키는가?

주요 결과

ImageNet에서 $\ell_0$ 공격 하에 반경 $r=1$ 에서 제안된 방법은 인증 정확도 0.538을 달성하였으며, 기준값 0.372보다 뚜렷이 뛰어나다.
비어 있지 않은 우도 비율 영역 수 $n$ 은 이론적 상한 $(d+1)^2$ 보다 훨씬 작아 효율적인 계산이 가능하다.
$\rho_r^{-1}(0.5)$ 는 $r=d$ 일 때에만 1에 도달하며, 각 $\alpha$ 와 $r$ 당 약 4일이 소요되지만, 다양한 모델과 데이터셋 간에 재사용 가능하다.
Bace 데이터셋에서 랜덤으로 스무딩된 결정 트리는 기존의 결정 트리보다 일관되게 높은 안정성을 보였으며, 반경 $r=1$ 에서 예측 확률 경계의 평균 차이가 0.358에 이르렀다.
이 방법은 이산 도메인에서 처음으로 실용적이고 날카운 $\ell_0$ 안정성 인증을 제공하며, 이는 이전의 연속 공간 적응 기법에 비해 뛰어난 성능을 보이는 실증 결과를 보였다.
인증 정확도는 반경 $r$ 과 비선형적인 관계를 보이며, 작은 반경에서는 높은 $\ell$ 값이 더 좋은 성능를 보이고 반대로 큰 반경에서는 반대의 경향을 보여, 안정성 스케일링의 상충 관계를 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.