Skip to main content
QUICK REVIEW

[논문 리뷰] Adversarial vulnerability for any classifier

Alhussein Fawzi, Hamza Fawzi|arXiv (Cornell University)|2018. 02. 23.
Adversarial Robustness in Machine Learning인용 수 47
한 줄 요약

논문은 매끄러운 생성 데이터 모델하에서 분류기에 의존하지 않는(Robustness에 대한) 경계를 도출하고, 적대적 노이즈의 전이가 가능함을 보이며, 분포 내(in-distribution) 강건성과 비제한(unconstrained) 강건성을 연결하고 SVHN과 CIFAR-10에 대한 실험적 검증을 포함한다.

ABSTRACT

Despite achieving impressive performance, state-of-the-art classifiers remain highly vulnerable to small, imperceptible, adversarial perturbations. This vulnerability has proven empirically to be very intricate to address. In this paper, we study the phenomenon of adversarial perturbations under the assumption that the data is generated with a smooth generative model. We derive fundamental upper bounds on the robustness to perturbations of any classification function, and prove the existence of adversarial perturbations that transfer well across different classifiers with small risk. Our analysis of the robustness also provides insights onto key properties of generative models, such as their smoothness and dimensionality of latent space. We conclude with numerical experimental results showing that our bounds provide informative baselines to the maximal achievable robustness on several datasets.

연구 동기 및 목표

  • 데이터가 매끄러운 생성 모델에 의해 생성될 때 어떤 분류기든지에 대한 강건성 한계를 동기 부여하고 정량화한다.
  • 분류를 바꾸는 데 필요한 최소 섭동의 상한 bound를 도출한다 (분포 내 및 비제한 조건에서).
  • 적대적 섭동의 분류기 간 전이를 확립한다.
  • 분포 내 강건성을 잠재 공간 섭동과 비제한 강건성과 연결한다.
  • 이론적 경계를 맥락화하기 위한 표준 데이터셋에 대한 실증 벤치마크를 제공한다.

제안 방법

  • Z ~ N(0,I_d)인 z를 사용하여 Z -> X로 매끄러운 생성기 g를 통한 데이터 생성을 모델링한다.
  • 레이블을 뒤집는 최소 섭동으로 분포 내 강건성 r_in과 비제한 강건성 r_unc를 각각 정의한다.
  • x = g(z)인 경우 r_in(x) <= η일 확률을 가우시안 아이소페리메트릭 부등식으로 상한한다.
  • g의 연속성의 모듈로스 ω를 도입하여 매끄러움을 포착하고 η를 ω^{-1}를 통해 섭동 크기와 연결한다.
  • g(z)에 대한 위험이 작은 경우 분류기 간에 전이 가능한 섭동이 존재함을 보인다.
  • Wasserstein 의미에서 근사 생성기(W(g_*(ν), μ) ≤ δ)에 확장을 하고 기대 강건성 경계를 도출한다.
  • 잠재 공간 섭동과 이미지 공간 섭동(r_Z 대 r_in/r_unc) 간의 구성적 연결고리를 제공한다.

실험 결과

연구 질문

  • RQ1데이터가 매끄러운 생성 모델에 의해 생성될 때 적대적 섭동에 대한 본질적이고 분류기-에 의존하지 않는 강건성 경계는 무엇인가?
  • RQ2이 데이터 모델하에서 다른 분류기 간에 적대적 섭동이 전이되는가?
  • RQ3매끄러운 생성 모델하에서 분포 내 강건성과 비제한 강건성은 어떻게 관련되는가?
  • RQ4생성기의 근사 오차(Wasserstein 거리로 진짜 데이터와의 차이)가 강건성 경계에 어떤 영향을 미치는가?
  • RQ5이 경계들이 더 강건한 생성 모델과 분류기를 설계하는 데 어떤 시사점을 제공하는가?

주요 결과

  • 잠재 공간이 고차원이고 생성기가 매끄러우면 많은 점들이 분포 내 강건성이 작은 섭동에 취약하다는 상한을 보인다.
  • 등확률 클래스 하에서 경계가 더 촘촘해지고 K(클래스 수)가 커질수록 증가하므로 클래스가 많을수록 속임수가 쉬워진다.
  • 적대적 섭동은 분류기 간에 작은 공동 위험을 가지고 전이될 수 있으며, 이는 분류기 간 불일치를 나타내는 δ 항을 포함하는 경계로 정량화된다.
  • 분류기가 최근접 이웃 구성으로 변환되면 비제한 강건성은 최소한 분포 내 강건성의 절반이다.
  • SVHN 및 CIFAR-10 실험에서 이 경계가 비공허한 기준선을 제공하고 잠재 공간 강건성이 이미지 공간 결과와 동등하다는 증거를 보이며, 분포 내 및 비제한 강건성 간의 간격은 모델 복잡도에 따라 달라진다.
  • 결과는 차원이 높고 매끄러운 생성 모델이 인간 지각 강건성 제약이 충족되지 않으면 임의의 판별 작업을 '매우 작은' 섭동으로도 속일 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.