Skip to main content
QUICK REVIEW

[논문 리뷰] Query-Efficient Black-box Adversarial Examples (superceded)

Andrew Ilyas, Logan Engstrom|arXiv (Cornell University)|2017. 12. 19.
Adversarial Robustness in Machine Learning참고 문헌 18인용 수 25
한 줄 요약

이 논문은 자연 진화 전략(NES)을 사용하여 기존 방법보다 2~3개 정도의 주요 차수 더 적은 쿼리로 악성 예제를 생성하는 쿼리 효율적인 블랙박스 공격 방법을 제안한다. 이는 상위-k 레이블만 노출되는 부분 정보 설정에서 타겟 공격을 위한 새로운 알고리즘을 도입하고, 수천 개의 클래스를 가진 대규모 상용 분류기인 Google Cloud Vision API에 대한 첫 번째 성공적인 타겟 공격을 입증한다.

ABSTRACT

Note that this paper is superceded by "Black-Box Adversarial Attacks with Limited Queries and Information." Current neural network-based image classifiers are susceptible to adversarial examples, even in the black-box setting, where the attacker is limited to query access without access to gradients. Previous methods --- substitute networks and coordinate-based finite-difference methods --- are either unreliable or query-inefficient, making these methods impractical for certain problems. We introduce a new method for reliably generating adversarial examples under more restricted, practical black-box threat models. First, we apply natural evolution strategies to perform black-box attacks using two to three orders of magnitude fewer queries than previous methods. Second, we introduce a new algorithm to perform targeted adversarial attacks in the partial-information setting, where the attacker only has access to a limited number of target classes. Using these techniques, we successfully perform the first targeted adversarial attack against a commercially deployed machine learning system, the Google Cloud Vision API, in the partial information setting.

연구 동기 및 목표

  • 실세계 시스템에서 높은 쿼리 비용으로 인해 기존의 블랙박스 악성 예제 공격이 실용적이지 않기 때문에 이를 해결하기 위해.
  • 엄격한 블랙박스 제약 조건 하에서 대체 모델 없이 신뢰할 수 있는 악성 예제 생성 방법을 개발하기 위해.
  • 상위-k 레이블과 점수만 접근 가능한 부분 정보 설정에서 타겟 공격을 가능하게 하기 위해.
  • 블랙박스 환경에서 변환에 강건한 악성 예제 생성의 가능성을 입증하기 위해.
  • Google Cloud Vision API와 같은 대규모 상용 분류기, 예를 들어 수천 개의 클래스를 가진 것에 대해 첫 번째 타겟 공격을 수행하기 위해.

제안 방법

  • 임의의 가우시안 편향에 대한 유한 차분을 통한 기울기 추정을 위해 자연 진화 전략(NES)을 사용하여 대체 모델이 필요 없도록 한다.
  • 편향에 대한 검색 분포를 사용하여 NES를 적용함으로써 악성 손실 함수를 효율적으로 최적화한다.
  • NES를 무작위 가우시안 기저에서의 유한 차분 추정으로 재구성함으로써 이론적 기반을 마련하고 쿼리 효율성을 향상시킨다.
  • 상위-k 클래스 예측만 제공되는 부분 정보 설정을 위한 새로운 타겟 공격 알고리즘을 도입한다.
  • NES와 전환에 대한 기대값(EOT) 방법을 조합하여 변환에 강건한 악성 예제를 생성한다.
  • 두 단계 최적화를 수행한다: 첫 번째로 NES를 사용한 비타겟 공격; 두 번째로 부분 정보 피드백을 이용한 타겟 보정

실험 결과

연구 질문

  • RQ1기존의 유한 차분 또는 대체 모델 방법보다 훨씬 적은 쿼리로 블랙박스 환경에서 악성 예제를 생성할 수 있는가?
  • RQ2상위-k 클래스 레이블과 점수만 접근 가능한 상황에서 타겟 블랙박스 공격을 수행할 수 있는가?
  • RQ3기울기 접근이 없는 블랙박스 환경에서 변환에 강건한 악성 예제를 효율적으로 생성할 수 있는가?
  • RQ4제안된 방법이 실세계의 대규모 상용 분류기, 예를 들어 Google Cloud Vision API에 성공적으로 공격할 수 있는가?
  • RQ5쿼리 효율성과 신뢰성 측면에서 NES 기반 기울기 추정은 유한 차분 방법보다 어떻게 비교되는가?

주요 결과

  • 제안된 NES 기반 방법은 최적화된 유한 차분 방법 대비 쿼리 수를 2~3개 정도의 주요 차수 감소시켜, CIFAR-10과 ImageNet에서 높은 효율성을 달성한다.
  • NES와 EOT 알고리즘을 조합하여 블랙박스 환경에서 처음으로 변환에 강건한 악성 예제를 생성한다.
  • 상위-10,000개 이상의 클래스를 가진 상용 시스템인 Google Cloud Vision API에 대해 부분 정보만을 사용하여 성공적으로 타겟 공격을 수행하였다.
  • 시각적 유사성을 유지하면서 스키어 이미지를 '개'로 잘못 분류하는 데 성공하여, 실세계 구현에서의 효과성을 입증하였다.
  • 제한된 액세스 조건 하에서 기존의 대체 네트워크 및 유한 차분 기반 접근 방식보다 쿼리 효율성과 신뢰성 측면에서 모두 뛰어나다.
  • 부분 정보 공격 알고리즘을 통해 공격자가 전체 클래스 분포나 신뢰도 점수를 관찰할 수 없더라도 효과적인 타겟 악성 예제 생성이 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.