QUICK REVIEW

[논문 리뷰] Adversarial Example Defenses: Ensembles of Weak Defenses are not Strong

Warren He, James Wei|arXiv (Cornell University)|2017. 06. 15.

Adversarial Robustness in Machine Learning참고 문헌 27인용 수 80

한 줄 요약

이 논문은 약한 적대적 방어의 앙상블(feature squeezing, specialists+1, 및 detector ensembles)이 적응 공격자에 대해 강한 강건성을 제공하지 못하며, 그들은 낮은 왜곡의 적대적 예제를 만들어 이를 우회할 수 있다.

ABSTRACT

Ongoing research has proposed several methods to defend neural networks against adversarial examples, many of which researchers have shown to be ineffective. We ask whether a strong defense can be created by combining multiple (possibly weak) defenses. To answer this question, we study three defenses that follow this approach. Two of these are recently proposed defenses that intentionally combine components designed to work well together. A third defense combines three independent defenses. For all the components of these defenses and the combined defenses themselves, we show that an adaptive adversary can create adversarial examples successfully with low distortion. Thus, our work implies that ensemble of weak defenses is not sufficient to provide strong defense against adversarial examples.

연구 동기 및 목표

여러 약한 방어 수단을 결합하면 적대적 예시에 대해 더 강력한 전체 방어가 되는지 평가한다.
구성 요소와 앙상블 강건성을 모두 결정하기 위해 세 가지 앙상블 방어 전략을 평가한다.
개별 방어 수단 및 그 조합을 무력화하도록 맞춤형 적응 공격을 개발한다.
앙상블이 비효과적일 수 있는 이유를 이해하기 위해 검출기 간 적대적 예문의 전이성(전이 가능성)을 분석한다.

제안 방법

오차를 최소화하면서 잘못 분류를 유도하도록 최적화 기반 적대적 공격을 사용한다 (loss(x') = ||x' - x||^2 + c·J(Fθ(x'), y)).
개별 feature squeezing 구성 요소(색상 깊이 감소 및 공간 스무딩)에 대한 적응 공격을 테스트한다.
세 가지 가지 분기 시스템으로 구성된 복합 feature squeezing 검출기에 대한 적응 공격을 테스트한다.
전문가들(specialists+1)의 앙상블을 평가하고 일반가와 적용 가능한 전문가를 모두 속이는 표적화된 적대적 예제를 시도한다.
검출기들(Gong, Metzen, Feinman)의 앙상블을 평가하고, 공동 손실을 통해 모든 검출기를 우회하는 적대적 예제를 생성한다.
MNIST와 CIFAR-10 데이터세트에 걸쳐 공격 성공률과 왜곡(L2)을 측정한다.

실험 결과

연구 질문

RQ1여러 방어를 앙상블하는 것이 어떤 단일 방어보다 적대적 예시에 대해 현저히 더 강건한가?
RQ2적응적 공격자가 서로 다른 방어 구조에서도 낮은 왜곡으로 앙상블 방어를 무력화할 수 있는가?
RQ3검출기 간의 적대적 예의 전이가 앙상블 방어의 효율성에 어떤 영향을 미치는가?
RQ4일부 특정 앙상블 구성(예: feature squeezing vs. specialists+1 vs. detector ensembles)은 다른 구성보다 더 탄력적인가?

주요 결과

적응적 공격자는 평가된 모든 방어 및 구성 요소를 우회하는 낮은 왜곡의 적대적 예제를 생성할 수 있다.
약한 방어의 앙상블은 가장 강한 개별 구성 요소를 넘는 추가적인 회복력을 거의 제공하지 않는다.
적대적 예는 종종 검출기 간에 전이되어 앙상블의 강건성을 약화시킨다.
색상 깊이 감소 및 공간 스무딩은 각각 적응 공격에 취약하며, 이들의 조합은 거의 미미한 이득만을 제공한다.
Specialists+1 앙상블은 필요한 왜곡을 증가시키지만 여전히 적응 공격에 취약하다.
검출기 앙상블 또한 적대적 예제의 전이성으로 인해 실질적인 강건성을 제공하지 못한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.