Skip to main content
QUICK REVIEW

[논문 리뷰] A Simple Explanation for the Existence of Adversarial Examples with Small Hamming Distance

Adi Shamir, Itay Safran|arXiv (Cornell University)|2019. 01. 30.
Adversarial Robustness in Machine Learning참고 문헌 27인용 수 70
한 줄 요약

이 논문은 고차원에서 부분 선형 네트워크에서 작은 L0(해밍) 거리의 표적 적대적 예제가 자연스럽게 발생한다는 이론적 프레임워크를 제시하고, m개 클래스에서 m+1 좌표 내의 효과적인 적대적 변화로 MNIST 실험에서 아이디어를 검증한다.

ABSTRACT

The existence of adversarial examples in which an imperceptible change in the input can fool well trained neural networks was experimentally discovered by Szegedy et al in 2013, who called them "Intriguing properties of neural networks". Since then, this topic had become one of the hottest research areas within machine learning, but the ease with which we can switch between any two decisions in targeted attacks is still far from being understood, and in particular it is not clear which parameters determine the number of input coordinates we have to change in order to mislead the network. In this paper we develop a simple mathematical framework which enables us to think about this baffling phenomenon from a fresh perspective, turning it into a natural consequence of the geometry of $\mathbb{R}^n$ with the $L_0$ (Hamming) metric, which can be quantitatively analyzed. In particular, we explain why we should expect to find targeted adversarial examples with Hamming distance of roughly $m$ in arbitrarily deep neural networks which are designed to distinguish between $m$ input classes.

연구 동기 및 목표

  • 고차원 부분선형 분류기에서 작은 해밍 거리(Hamming distance)의 적대적 예제가 자연스러운 부수효과인 이유를 설명한다.
  • 신경망에서 라벨링된 영역 간 이동을 위해 몇 개의 입력 좌표가 바뀌어야 하는지 정량적으로 분석한다.
  • 이론적 경계와 MNIST 실험을 통해 m개의 클래스를 구분할 때 임의의 두 클래스 영역 사이를 이동하기 위해 대략 m개의 좌표를 바꾸는 것이 충분하다는 것을 보인다.

제안 방법

  • ReLU 활성화에 의해 유도된 조각별-선형 매핑으로 신경망을 모델링한다.
  • m개의 초평면으로 R^n의 분할을 분석하고 희소한 섭동이 점을 한 셀에서 다른 셀로 이동시킬 수 있는 조건(L0 거리 메트릭)을 도출한다.
  • 무작위에 가까운 초평면 배열에 대해 n이 m에 비해 충분히 큰 경우 두 좌표를 바꾸는 것이 종종 충분하다는 것을 증명한다.
  • 네트워크의 출력을 목표 클래스 쪽으로 이끌기 위해 약 m개의 좌표를 섭동하는 기본 알고리즘을 제안하고, 경직/소프트 실패를 피하기 위한 향상된 무작위화 버전을 제안한다.
  • MNIST로 실험적으로 검증하여, m개의 클래스를 구분하는 네트워크에서 거리 m+1의 적대적 예제가 존재하는지 확인한다.

실험 결과

연구 질문

  • RQ1고차원 부분 선형 네트워크에서 한 클래스 영역에서 다른 클래스 영역으로 이동하려면 입력 좌표를 몇 개 바꿔야 하는가?
  • RQ2작은 L0(해밍) 섭동이 m개 클래스 전반에 걸친 표적 잘못 분류를 실현하기에 충분한가, 그리고 이것이 n과 m에 따라 어떻게 확장되는가?
  • RQ3이러한 표적 적대적 예제를 구성하는 알고리즘을 설계할 수 있는가, 그리고 그것의 성공/실패 모드는 무엇인가?

주요 결과

  • m개의 선 분리기로 분할된 R^n에서, 좌표를 최대 k개 바꿔서 다른 라벨 영역에 도달하려면 sparse한 열의 선형 조합이 원하는 사분면에 놓여 있어야 한다면 가능하다; k=2인 경우 n이 m에 비해 보통 충분할 때 가능성이 높다.
  • MNIST(n=784, m=10)에서, 실험은 11픽셀(m+1)을 수정해도 한 숫자에서 다른 숫자로 전환하는 적대적 예제가 생성될 수 있음을 보여주어 실질적으로 m+1 한도를 확인한다.
  • 이론적 경계는 일반적으로 큰 n 설정에서 m좌표 정도를 바꿔도 파티션의 두 영역 간 이동이 가능하다고 시사하여 표적 공격을 가능하게 한다.
  • 무작위화 개선(필요 시 m+1 좌표를 변경)으로 소프트 실패를 피하고 더 신뢰적으로 적대적 예제를 찾는 데 도움이 된다.
  • 결과는 조각별 선형성을 유지하거나 네트워크 깊이를 증가시키는 방어책이 있어도 표적 저해밍 거리의 적대적 예제에 취약할 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.