QUICK REVIEW

[논문 리뷰] Query-Efficient Black-box Adversarial Examples (superceded)

Andrew Ilyas, Logan Engstrom|arXiv (Cornell University)|2017. 12. 19.

Adversarial Robustness in Machine Learning참고 문헌 18인용 수 25

한 줄 요약

이 논문은 자연 진화 전략(NES)을 사용하여 기존 방법보다 2~3개 정도의 주요 차수 더 적은 쿼리로 악성 예제를 생성하는 쿼리 효율적인 블랙박스 공격 방법을 제안한다. 이는 상위-k 레이블만 노출되는 부분 정보 설정에서 타겟 공격을 위한 새로운 알고리즘을 도입하고, 수천 개의 클래스를 가진 대규모 상용 분류기인 Google Cloud Vision API에 대한 첫 번째 성공적인 타겟 공격을 입증한다.

ABSTRACT

Note that this paper is superceded by "Black-Box Adversarial Attacks with Limited Queries and Information." Current neural network-based image classifiers are susceptible to adversarial examples, even in the black-box setting, where the attacker is limited to query access without access to gradients. Previous methods --- substitute networks and coordinate-based finite-difference methods --- are either unreliable or query-inefficient, making these methods impractical for certain problems. We introduce a new method for reliably generating adversarial examples under more restricted, practical black-box threat models. First, we apply natural evolution strategies to perform black-box attacks using two to three orders of magnitude fewer queries than previous methods. Second, we introduce a new algorithm to perform targeted adversarial attacks in the partial-information setting, where the attacker only has access to a limited number of target classes. Using these techniques, we successfully perform the first targeted adversarial attack against a commercially deployed machine learning system, the Google Cloud Vision API, in the partial information setting.

연구 동기 및 목표

실세계 시스템에서 높은 쿼리 비용으로 인해 기존의 블랙박스 악성 예제 공격이 실용적이지 않기 때문에 이를 해결하기 위해.
엄격한 블랙박스 제약 조건 하에서 대체 모델 없이 신뢰할 수 있는 악성 예제 생성 방법을 개발하기 위해.
상위-k 레이블과 점수만 접근 가능한 부분 정보 설정에서 타겟 공격을 가능하게 하기 위해.
블랙박스 환경에서 변환에 강건한 악성 예제 생성의 가능성을 입증하기 위해.
Google Cloud Vision API와 같은 대규모 상용 분류기, 예를 들어 수천 개의 클래스를 가진 것에 대해 첫 번째 타겟 공격을 수행하기 위해.

제안 방법

임의의 가우시안 편향에 대한 유한 차분을 통한 기울기 추정을 위해 자연 진화 전략(NES)을 사용하여 대체 모델이 필요 없도록 한다.
편향에 대한 검색 분포를 사용하여 NES를 적용함으로써 악성 손실 함수를 효율적으로 최적화한다.
NES를 무작위 가우시안 기저에서의 유한 차분 추정으로 재구성함으로써 이론적 기반을 마련하고 쿼리 효율성을 향상시킨다.
상위-k 클래스 예측만 제공되는 부분 정보 설정을 위한 새로운 타겟 공격 알고리즘을 도입한다.
NES와 전환에 대한 기대값(EOT) 방법을 조합하여 변환에 강건한 악성 예제를 생성한다.
두 단계 최적화를 수행한다: 첫 번째로 NES를 사용한 비타겟 공격; 두 번째로 부분 정보 피드백을 이용한 타겟 보정

실험 결과

연구 질문

RQ1기존의 유한 차분 또는 대체 모델 방법보다 훨씬 적은 쿼리로 블랙박스 환경에서 악성 예제를 생성할 수 있는가?
RQ2상위-k 클래스 레이블과 점수만 접근 가능한 상황에서 타겟 블랙박스 공격을 수행할 수 있는가?
RQ3기울기 접근이 없는 블랙박스 환경에서 변환에 강건한 악성 예제를 효율적으로 생성할 수 있는가?
RQ4제안된 방법이 실세계의 대규모 상용 분류기, 예를 들어 Google Cloud Vision API에 성공적으로 공격할 수 있는가?
RQ5쿼리 효율성과 신뢰성 측면에서 NES 기반 기울기 추정은 유한 차분 방법보다 어떻게 비교되는가?

주요 결과

제안된 NES 기반 방법은 최적화된 유한 차분 방법 대비 쿼리 수를 2~3개 정도의 주요 차수 감소시켜, CIFAR-10과 ImageNet에서 높은 효율성을 달성한다.
NES와 EOT 알고리즘을 조합하여 블랙박스 환경에서 처음으로 변환에 강건한 악성 예제를 생성한다.
상위-10,000개 이상의 클래스를 가진 상용 시스템인 Google Cloud Vision API에 대해 부분 정보만을 사용하여 성공적으로 타겟 공격을 수행하였다.
시각적 유사성을 유지하면서 스키어 이미지를 '개'로 잘못 분류하는 데 성공하여, 실세계 구현에서의 효과성을 입증하였다.
제한된 액세스 조건 하에서 기존의 대체 네트워크 및 유한 차분 기반 접근 방식보다 쿼리 효율성과 신뢰성 측면에서 모두 뛰어나다.
부분 정보 공격 알고리즘을 통해 공격자가 전체 클래스 분포나 신뢰도 점수를 관찰할 수 없더라도 효과적인 타겟 악성 예제 생성이 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.