QUICK REVIEW

[논문 리뷰] Certified Adversarial Robustness with Additive Noise

Bai Li, Changyou Chen|arXiv (Cornell University)|2018. 09. 10.

Adversarial Robustness in Machine Learning참고 문헌 48인용 수 45

한 줄 요약

이 논문은 적대적 강건성을 가법적 가우시안 잡음에 대한 강건성과 연결하고 테스트 시 노이즈를 추가하며 안정성 학습을 통해 강건성 경계를 좁히는 확장 가능한 인증 방어를 제안합니다.

ABSTRACT

The existence of adversarial data examples has drawn significant attention in the deep-learning community; such data are seemingly minimally perturbed relative to the original data, but lead to very different outputs from a deep-learning algorithm. Although a significant body of work on developing defensive models has been considered, most such models are heuristic and are often vulnerable to adaptive attacks. Defensive methods that provide theoretical robustness guarantees have been studied intensively, yet most fail to obtain non-trivial robustness when a large-scale model and data are present. To address these limitations, we introduce a framework that is scalable and provides certified bounds on the norm of the input manipulation for constructing adversarial examples. We establish a connection between robustness against adversarial perturbation and additive random noise, and propose a training strategy that can significantly improve the certified bounds. Our evaluation on MNIST, CIFAR-10 and ImageNet suggests that the proposed method is scalable to complicated models and large data sets, while providing competitive robustness to state-of-the-art provable defense methods.

연구 동기 및 목표

딥 네트워크에 대한 노름-경계 adversarial perturbations 아래의 인증된 강건성에 대한 확장 가능한 접근법을 동기화하고 형식화한다.
Rényi 발산을 통해 적대적 강건성과 가법적 무작위 노이즈에 대한 강건성 사이의 연결고리를 확립한다.
인증된 강건성 경 bounds 를 손실 없이 향상시키는 학습 전략을 개발한다.
MNIST, CIFAR-10, ImageNet에서 경쟁력 있는 증명 가능한 강건성과 실험적 강건성을 보여준다.

제안 방법

테스트 시 입력에 가우시안 잡음을 추가하여 확률적 분류기를 도입하고 Rényi 발산을 사용하여 l2 포락에 대한 인증 강건성 경 Bound를 도출한다.
알고리즘 1 (Certified Robust Classifier)을 제공하여 예측 클래스를 높은 확률로 보존하는 천 선언의 perturbation 크기 상한 L 을 계산한다.
출력 분포를 노이즈 하에서 연결하기 위해 Lemma 1 및 Theorem 2(및 l1에 대해서는 Laplacian 노이즈의 Theorem 3)로 경 Bound 를 증명한다.
Gaussian 잡음에 따른 안정성 학습 STN으로 강건성 경 Bound 를 개선하고 모델이 잡음에 대해 안정적으로 작용하도록 정규화한다.
Adversarial Logit Pairing 및 안정성 목적을 선택적으로 도입하여 그라디언트 마스킹에 의존하지 않고 노이즈 하의 정확성을 향상시킨다.
MNIST, CIFAR-10, ImageNet에서 안정성 학습과 잡음 매개변수를 실험하여 PixelDP 및 TRADES와의 비교를 수행한다.

실험 결과

연구 질문

RQ1가우시안 잡음으로 테스트 중 randomized smoothing을 사용할 때 올바른 클래스를 보존하면서 허용될 수 있는 adversarial perturbation 크기는 얼마나 큰가?
RQ2테스트 시 노이즈를 추가하고 안정성 학습을 결합하면 대규모 네트워크와 데이터세트에 확장 가능한 인증 강건성 경 Bound 를 제공할 수 있는가?
RQ3도출된 경 Bound 는 이론 및 실무에서 기존의 입증 가능한 방어들(예: LP 기반 또는 차등 프라이버시 기반 방법)과 어떻게 비교되는가?
RQ4다양한 공격 강도에서 자연 정확도 및 강건성에 대한 노이즈 수준의 영향은 어떠한가?

주요 결과

가우시안 잡음을 테스트 시 추가할 때 일반적인 활성화 구조를 가진 어떤 분류기라도 l2 포락에 대한 인증된 경 Bound 를 도출할 수 있다.
상위 두 클래스 확률 p(1) 과 p(2) 사이의 간격이 노이즈 하에서 커지고 노이즈 수준 sigma 가 최적화될 때 경 Bound 가 강화된다.
STN(Stability Training with Noise)은 큰 계산 부담 없이 인증 경 Bound 와 실험적 강건성을 크게 향상시킨다.
MNIST, CIFAR-10, ImageNet에 대한 실험에서 최첨단 입증 가능한 방어 및 강력한 공격에 대한 강건성에 대해 경쟁력 있는 성과를 보여준다.
STN 은 더 강한 공격 하에서도 일부 입증 가능한 방어보다 더 높은 자연 정확도를 유지하고 경쟁력 있는 강건 정확도를 달성한다.
이 프레임워크는 기존 모델에 확장 가능하고 적응적 공격에 대해 평가될 수 있는 확장 가능한 접근법을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.