Skip to main content
QUICK REVIEW

[논문 리뷰] Adversarial Examples Are a Natural Consequence of Test Error in Noise

Nic Ford, Justin Gilmer|arXiv (Cornell University)|2019. 01. 29.
Adversarial Robustness in Machine Learning참고 문헌 27인용 수 135
한 줄 요약

이 논문은 적대적 예시가 Gaussian 잡음 하에서 비제로 테스트 오차로부터 자연스럽게 발생한다는 점을 주장하며, 적대적 강인성을 오염 강인성과 연결하고 Imagenet-C와 같은 분포 이동 벤치마크와의 공동 평가를 권장한다.

ABSTRACT

Over the last few years, the phenomenon of adversarial examples --- maliciously constructed inputs that fool trained machine learning models --- has captured the attention of the research community, especially when the adversary is restricted to small modifications of a correctly handled input. Less surprisingly, image classifiers also lack human-level performance on randomly corrupted images, such as images with additive Gaussian noise. In this paper we provide both empirical and theoretical evidence that these are two manifestations of the same underlying phenomenon, establishing close connections between the adversarial robustness and corruption robustness research programs. This suggests that improving adversarial robustness should go hand in hand with improving performance in the presence of more general and realistic image corruptions. Based on our results we recommend that future adversarial defenses consider evaluating the robustness of their methods to distributional shift with benchmarks such as Imagenet-C.

연구 동기 및 목표

  • 적대적 강인성과 노이즈/손상된 이미지 분포에서의 오염 강인성 간의 연결 고리를 동기로 제시한다.
  • 가우시안 잡음 하에서 분류기의 오류 집합을 특성화하고 이를 작은 적대적 섭동과 관련지운다.
  • 적대적 강인성의 개선이 오염 강인성에 영향을 미치는 방식과 그 역의 관계를 보여준다.
  • 오 adversarial 지표 외에도 오염 벤치마크를 사용한 방어 평가에 대한 실용적인 지침을 제공한다.

제안 방법

  • 클래시파이어의 맑은 입력과 오염된 입력에 대한 오류 집합 E를 정의하고 분석한다.
  • 가우시안 잡음 하에서의 오염 강인성을 E에 대한 거리와 잡음 스케일 매개변수를 통해 적대적 강인성과 연결한다.
  • 선형 모델 직관을 사용하여 d(x0,E) ≈ -sigma Phi^{-1}(mu)와 같은 결정 경계까지의 거리와 가우시안 잡음 오류율 mu를 연결하는 관계를 도출한다.
  • CIFAR-10과 ImageNet에서 일반적으로 훈련된 모델, 가우시안 보강 모델, 적대적으로 훈련된 모델을 실험적으로 비교한다.
  • 가우시안 아이소페리 메트릭 부등식을 적용하여 잡음 수준 및 오차율의 함수로 이웃한 오류까지의 중앙값 거리를 상한한다.
  • Imagenet-C에서 오염 강인성을 평가하고, 메모리 내 손상과 압축 손상의 차이를 비교하여 취약성 및 방어 효과를 평가한다.

실험 결과

연구 질문

  • RQ1가우시안 잡음에서 관찰된 오차율이 주어질 때, 깨끗한 입력으로부터의 작은 거리에서 반드시 존재하는가?
  • RQ2가우시안 교란 하에서의 오염 강인성은 자연스러운 훈련, 가우시안 보강, 적대적 훈련 등 서로 다른 훈련 규칙에서 적대적 강인성과 어떤 관계를 보이는가?
  • RQ3실제 잡음 분포 하에서 적대적 예시의 깨끗한 데이터에의 근접성을 아이소페리메트릭 경계가 의미 있게 설명할 수 있는가?
  • RQ4적대적 강인성을 개선하는 방어가 오염 강인성도 개선하고 그 반대의 경우도 있는가?
  • RQ5일반적인 오염 벤치마크(Imagenet-C)가 적대적 방어 평가에 끼치는 영향은 어떠한가?

주요 결과

  • 적대적 예시는 가우시안 잡음 하에서 반공간(half-space) 오류 모델에 의해 예측되는 거리에서 나타나며, 작은 섭동을 설명하기 위해 독특한 결정 경계가 필요하지 않음을 시사한다.
  • 적대적 강인성의 개선(적대적 훈련)을 통해 가우시안 잡음에 대한 강인성도 증가하고, 가우시안 보강은 주로 잡음에 대한 강인성과 일정 부분 작은 섭동에 대한 강인성을 증가시킨다.
  • 가우시안 아이소페리메트릭 부등식은 주어진 비제로 가우시안 잡음 오차율에 대해 이웃한 오류까지의 중앙값 거리가 -sigma Phi^{-1}(mu)로 상한되며, 이는 반공간에서의 등호를 가진다는 것을 보여 주며 실험적 관찰과 일치한다.
  • 가우시안 잡음에서 더 높은 오차율을 가진 모델은 인접한 오류가 더 가깝고, 가장 강인한 모델은 선형 직관과 일치하는 반공간에 가까운 오류 집합으로 기울어 있다.
  • 적대적 훈련과 가우시안 보강 모두 오염 강인성을 향상시키고, 모션블러, 잡음, 안개, 대비 등 서로 다른 손상 유형에 걸친 강인성 프로필을 변화시킬 수 있다.
  • 오염 강인성 벤치마크(Imagenet-C)는 방어가 압축 손상과 메모리 내 손상에서 다르게 작동할 수 있음을 시사하며, 분포 이동 하에서의 취약성과 교차 평가의 가치를 부각한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.