Skip to main content
QUICK REVIEW

[논문 리뷰] Adversarial Spheres

Justin Gilmer, Luke Metz|arXiv (Cornell University)|2018. 01. 09.
Adversarial Robustness in Machine Learning참고 문헌 8인용 수 47
한 줄 요약

이 논문은 고차원 동심 구 데이터셋에서 적대적 예제를 연구하여 이웃한 오류까지의 평균 거리와 테스트 오류 간의 경계(bound)를 증명하고, 다양한 모델이 이 경계에 접근함을 보이며, 강건성은 일반화 오류를 줄이는 것에 달려 있음을 시사한다.

ABSTRACT

State of the art computer vision models have been shown to be vulnerable to small adversarial perturbations of the input. In other words, most images in the data distribution are both correctly classified by the model and are very close to a visually similar misclassified image. Despite substantial research interest, the cause of the phenomenon is still poorly understood and remains unsolved. We hypothesize that this counter intuitive behavior is a naturally occurring result of the high dimensional geometry of the data manifold. As a first step towards exploring this hypothesis, we study a simple synthetic dataset of classifying between two concentric high dimensional spheres. For this dataset we show a fundamental tradeoff between the amount of test error and the average distance to nearest error. In particular, we prove that any model which misclassifies a small constant fraction of a sphere will be vulnerable to adversarial perturbations of size $O(1/\sqrt{d})$. Surprisingly, when we train several different architectures on this dataset, all of their error sets naturally approach this theoretical bound. As a result of the theory, the vulnerability of neural networks to small adversarial perturbations is a logical consequence of the amount of test error observed. We hope that our theoretical analysis of this very simple case will point the way forward to explore how the geometry of complex real-world data sets leads to adversarial examples.

연구 동기 및 목표

  • 단순하고 잘 정의된 고차원 데이터셋을 통해 적대적 예제를 동기화하고 이해한다.
  • 오류 집합의 두 가지 기본 측정치: 오류율 mu(E)와 가장 가까운 오류까지의 평균 거리 d(E)를 정의하고 서로 연관시킨다.
  • 고차원에서 소수의 분류 오류가 대부분의 데이터 포인트가 오류에 근접한다는 점을 증명한다.
  • 모델 아키텍처에 관계없이 적대적 강건성에 대한 이론적 경계를 제시한다.
  • 실용적인 신경망이 이 합성(task)에서 이 이론적 경계에 합치하는 것을 보인다.

제안 방법

  • n 차원에서 두 구체 데이터 분포를 연구한다(반지름이 1과 R=1.3인 동심 구체).
  • 이 데이터셋에서 다양한 신경망 아키텍처를 학습하고, 데이터 매니폴드 적대적 공격(||x||2 고정 제약 하에)을 사용해 테스트 오류와 오류에 대한 근접성을 평가한다.
  • 해석적으로 풀이 가능한 제곱 네트워크를 형식화하고 분석하여 의사 경계가 타원체가 되게 하고 적대적 예제의 존재 여부에 대한 조건을 도출한다.
  • 다음의 경계를 증명한다: d(E) <= O(Phi^{-1}(p)/sqrt(n)) 여기서 p는 내부 구의 정확도이고 E는 내부 구의 잘못 분류된 점들이다.
  • 다양한 아키텍처의 신경망이 학습 데이터 크기 N에서 실험적으로 관찰된 경계에 접근하는 것을 보인다.
  • 중심극한정리에 Based 추정을 사용하여 제곱 네트워크의 alpha_i 매개변수를 추정된 오류율과 연결한다.

실험 결과

연구 질문

  • RQ1고차원에서 데이터 매니폴드의 오류(mu(E))와 가장 가까운 오류까지의 평균 거리(d(E)) 사이의 관계는 어떠한가?
  • RQ2모델 아키텍처에 독립적인 적대적 강건성의 기본 경계를 단순한 고차원 합성 과제에서 드러낼 수 있는가?
  • RQ3다양한 신경망 아키텍처가 mu(E)가 주어졌을 때 d(E)의 이론적 경계에 부합하는 의사 경계를 보이는가?
  • RQ4이 데이터셋에서 테스트 오류를 줄이지 않고도 적대적 강건성을 개선하는 것이 가능한가?

주요 결과

  • 다양한 모델이 임의로 선택한 대부분의 포인트를 올바르게 분류하더라도 데이터 매니폴드에서 근처에 잘못 분류된 예가 존재한다(적대적 예).
  • 이 데이터셋의 경우 내부 구의 소수의 분류 오류를 가진 모든 모델은 크기가 O(1/√n)의 적대적扰動을 가지게 된다.
  • 다양한 아키텍처의 신경망이 데이터셋에서 mu(E)와 d(E)를 잇는 이론적 경계에 접근한다.
  • 타원 형태의 해석적 형태를 갖는 이차 네트워크는 파라미터 정렬(alpha_i)이 [1/R^2, 1] 범위를 벗어나면 불완전한 경우에 적대적 예제가 생긴다는 것을 보여주며, 작은 실험적 테스트 오류에도 불구하고.
  • d(E)에 대한 경계는 관찰된 mu(E)와 비교해 촘촘하고 근접하게 추정되며, 강건성을 개선하려면 mu(E)를 상당히 감소시켜야 한다.
  • mu(E)와 d(E) 사이의 관측된 관계는 서로 다른 아키텍처에서도 비슷하여 기하학적 구속이 아키텍처 특이 현상보다 우선한다는 것을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.