Skip to main content
QUICK REVIEW

[논문 리뷰] Adversarial Examples Are Not Easily Detected: Bypassing Ten Detection Methods

Nicholas Carlini, David Wagner|arXiv (Cornell University)|2017. 05. 20.
Adversarial Robustness in Machine Learning인용 수 330
한 줄 요약

이 논문은 ten 가지 적대적 예제 탐지 방법을 조사하고, 그것들이 맞춤 공격으로 우회될 수 있음을 보여주며, 적대적 예제가 쉽게 탐지되지 않는다고 주장하고 평가 가이드라인을 제시한다.

ABSTRACT

Neural networks are known to be vulnerable to adversarial examples: inputs that are close to natural inputs but classified incorrectly. In order to better understand the space of adversarial examples, we survey ten recent proposals that are designed for detection and compare their efficacy. We show that all can be defeated by constructing new loss functions. We conclude that adversarial examples are significantly harder to detect than previously appreciated, and the properties believed to be intrinsic to adversarial examples are in fact not. Finally, we propose several simple guidelines for evaluating future proposed defenses.

연구 동기 및 목표

  • 다중 위협 모델에 걸쳐 ten recent adversarial example detection methods의 효과를 평가합니다.
  • 감지된 adversarial examples가 adaptive, white-box, 및 transferability 공격에 대해 견고한지 여부를 판단합니다.
  • 강한 평가 하에서 adversarial과 natural 이미지 사이의 purported intrinsic 차이가 유지되는지 이해합니다.
  • 향후 방어를 평가하기 위한 실용적인 권고를 제공합니다.

제안 방법

  • 일곱 편의 논문에서 열 가지 탐지 체계를 재현하고 재구현합니다.
  • Carlini and Wagner의 L2 타깃 공격을 사용하여 adversarial examples를 생성합니다.
  • 각 탐지를 피하기 위한 adaptive, white-box 공격자 손실 함수를 개발합니다.
  • black-box(제한된 지식) 공격을 평가하기 위해 transferability를 활용합니다.
  • 분류기와 탐지기를 통합하여 방어를 우회하는 통합 공격 프레임워크를 정의합니다.
  • 제로-지식, 완전-지식, 제한된 지식 위협 모델하에서 방어를 평가합니다.

실험 결과

연구 질문

  • RQ1현존하는 적대적 탐지 방법이 강한 적응 공격 하에서 adversarial과 natural 이미지를 신뢰성 있게 구분할 수 있습니까?
  • RQ2공격자가 방어에 대해 전체 지식을 보유한 화이트박스(white-box) 상황에서 또는 블랙박스 접근만 있는 경우 탐지기가 견고합니까?
  • RQ3전이성(transferability)이 제한된 지식 시나리오에서 탐지기를 성공적으로 회피하게 하나요?
  • RQ4MNIST 기반 결과가 CIFAR-10과 같은 더 복잡한 데이터셋으로 일반화됩니까?

주요 결과

  • 모든 열 가지 탐지 방법은 특정 방어에 맞춘 공격에 의해 우회될 수 있습니다.
  • 단순한 데이터셋에서 왜곡은 미미하게 증가하지만; CIFAR-10에서 적대적 예제는 자연 이미지와 구별할 수 없게 남습니다.
  • 일부 방어가 제로-지식이나 간단한 공격 하에서는 잘 작동하나 완전-지식 공격자 하에서는 실패합니다.
  • 적응 공격(adaptive attacks)은 탐지기의 명백한 강건성을 크게 감소시키거나 제거하며, 왜곡이 약 10% 정도 증가해도 탐지 입력을 생성하지 못하는 경우가 많습니다.
  • 방어-무작위선택(defense-by-dalselection) 접근법과 계층별 또는 PCA 기반 통계에 의존하는 방법은 화이트박스 회피에 대해 진정으로 강건하지 않습니다.
  • 연구는 MNIST 기반 결과에 의존하는 경고를 제시하고 표준화된 평가 접근법의 필요성을 촉구합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.