QUICK REVIEW

[논문 리뷰] Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples

Anish Athalye, Nicholas Carlini|arXiv (Cornell University)|2018. 02. 01.

Adversarial Robustness in Machine Learning인용 수 1,189

한 줄 요약

논문은 obfuscated gradients를 gradient masking으로 정의하고 이를 우회하는 공격을 개발하여 많은 ICLR 2018 비인증 방어가 취약하다는 것을 실증합니다.

ABSTRACT

We identify obfuscated gradients, a kind of gradient masking, as a phenomenon that leads to a false sense of security in defenses against adversarial examples. While defenses that cause obfuscated gradients appear to defeat iterative optimization-based attacks, we find defenses relying on this effect can be circumvented. We describe characteristic behaviors of defenses exhibiting the effect, and for each of the three types of obfuscated gradients we discover, we develop attack techniques to overcome it. In a case study, examining non-certified white-box-secure defenses at ICLR 2018, we find obfuscated gradients are a common occurrence, with 7 of 9 defenses relying on obfuscated gradients. Our new attacks successfully circumvent 6 completely, and 1 partially, in the original threat model each paper considers.

연구 동기 및 목표

adversarial 예제에 대한 강건성을 잘못 시사하는 형태의 gradient masking으로서 obfuscated gradients를 식별한다.
각 유형의 obfuscated gradients를 특징화하고 각 유형을 극복하기 위한 공격을 개발한다.
ICLR 2018 비인증 방어에서 obfuscated gradients의 보급을 평가하고 우회 방법을 입증한다.
연구자가 방어를 재현 가능한 기준선과 공격 구현으로 평가할 수 있도록 한다.
방어 평가 및 일반적인 평가 함정 회피에 대한 가이드를 제공한다.

제안 방법

obfuscated gradients와 세 가지 유형인 shattered, stochastic, vanishing/exploding gradients를 정의한다.
비미분 가능 구성요소를 위한 BPDA; 무작위 방어를 위한 Expectation Over Transformation(EOT); gradient 이슈를 다루기 위한 재매개화(reparameterization)를 개발한다.
BPDA, EOT, 재매개화를 사용하여 방어를 공격하고 우회 사례를 입증한다.
obfuscated gradients에 의존하는지를 평가하기 위해 ICLR 2018 비인증 방어에 대한 사례 연구를 수행한다.
재현성을 위한 방어 및 공격의 재구현을 공개한다.

실험 결과

연구 질문

RQ1화이트박스 강건성을 주장하는 방어가 obfuscated gradients에 의존하는가?
RQ2다양한 방어 유형에 걸쳐 gradient masking을 극복하기 위한 공격을 설계할 수 있는가?
RQ3실제 방어에서 obfuscated gradients의 보급은 어느 정도이며 ICLR 2018과 같은 방어들에서는 어떤가?
RQ4제안된 공격이 원래의 위협 모델 아래에서 이러한 방어를 완전히 우회하거나 부분적으로 우회할 수 있는가?

주요 결과

방어	데이터셋	거리	정확도
Buckman et al. (2018)	CIFAR	0.031 (L_infty)	0%*
Ma et al. (2018)	CIFAR	0.031 (L_infty)	5%
Guo et al. (2018)	ImageNet	0.005 (L_2)	0%*
Dhillon et al. (2018)	CIFAR	0.031 (L_infty)	0%
Xie et al. (2018)	ImageNet	0.031 (L_infty)	0%*
Song et al. (2018)	CIFAR	0.031 (L_infty)	9%*
Samangouei et al. (2018)	MNIST	0.005 (L_2)	55%**
Madry et al. (2018)	CIFAR	0.031 (L_infty)	47%
Na et al. (2018)	CIFAR	0.015 (L_infty)	15%

9개의 ICLR 2018 비인증 방어 중 7개가 obfuscated gradients에 의존한다.
제 공격은 6개의 방어를 완전히 우회하고 원래 위협 모델 하에서 1개를 부분적으로 우회한다.
BPDA, EOT, 재매개화는 shattered, stochastic, vanishing/exploding gradients를 효과적으로 다룬다.
입력 변환, thermometer encoding, 무작위 활성 가지치기, PixelCNN 기반 정화는 우리의 공격에 취약하다.
적대적 학습을 결합한 방어도 우리의 적응형 공격에 대해 면역을 보장하지 않는다.
이 연구는 방어 평가의 기준선을 제공하고 일반적인 평가 함정을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.