[논문 리뷰] Query-Efficient Black-box Adversarial Examples (superceded)
이 논문은 자연 진화 전략(NES)을 사용하여 기존 방법보다 2~3개 정도의 주요 차수 더 적은 쿼리로 악성 예제를 생성하는 쿼리 효율적인 블랙박스 공격 방법을 제안한다. 이는 상위-k 레이블만 노출되는 부분 정보 설정에서 타겟 공격을 위한 새로운 알고리즘을 도입하고, 수천 개의 클래스를 가진 대규모 상용 분류기인 Google Cloud Vision API에 대한 첫 번째 성공적인 타겟 공격을 입증한다.
Note that this paper is superceded by "Black-Box Adversarial Attacks with Limited Queries and Information." Current neural network-based image classifiers are susceptible to adversarial examples, even in the black-box setting, where the attacker is limited to query access without access to gradients. Previous methods --- substitute networks and coordinate-based finite-difference methods --- are either unreliable or query-inefficient, making these methods impractical for certain problems. We introduce a new method for reliably generating adversarial examples under more restricted, practical black-box threat models. First, we apply natural evolution strategies to perform black-box attacks using two to three orders of magnitude fewer queries than previous methods. Second, we introduce a new algorithm to perform targeted adversarial attacks in the partial-information setting, where the attacker only has access to a limited number of target classes. Using these techniques, we successfully perform the first targeted adversarial attack against a commercially deployed machine learning system, the Google Cloud Vision API, in the partial information setting.
연구 동기 및 목표
- 실세계 시스템에서 높은 쿼리 비용으로 인해 기존의 블랙박스 악성 예제 공격이 실용적이지 않기 때문에 이를 해결하기 위해.
- 엄격한 블랙박스 제약 조건 하에서 대체 모델 없이 신뢰할 수 있는 악성 예제 생성 방법을 개발하기 위해.
- 상위-k 레이블과 점수만 접근 가능한 부분 정보 설정에서 타겟 공격을 가능하게 하기 위해.
- 블랙박스 환경에서 변환에 강건한 악성 예제 생성의 가능성을 입증하기 위해.
- Google Cloud Vision API와 같은 대규모 상용 분류기, 예를 들어 수천 개의 클래스를 가진 것에 대해 첫 번째 타겟 공격을 수행하기 위해.
제안 방법
- 임의의 가우시안 편향에 대한 유한 차분을 통한 기울기 추정을 위해 자연 진화 전략(NES)을 사용하여 대체 모델이 필요 없도록 한다.
- 편향에 대한 검색 분포를 사용하여 NES를 적용함으로써 악성 손실 함수를 효율적으로 최적화한다.
- NES를 무작위 가우시안 기저에서의 유한 차분 추정으로 재구성함으로써 이론적 기반을 마련하고 쿼리 효율성을 향상시킨다.
- 상위-k 클래스 예측만 제공되는 부분 정보 설정을 위한 새로운 타겟 공격 알고리즘을 도입한다.
- NES와 전환에 대한 기대값(EOT) 방법을 조합하여 변환에 강건한 악성 예제를 생성한다.
- 두 단계 최적화를 수행한다: 첫 번째로 NES를 사용한 비타겟 공격; 두 번째로 부분 정보 피드백을 이용한 타겟 보정
실험 결과
연구 질문
- RQ1기존의 유한 차분 또는 대체 모델 방법보다 훨씬 적은 쿼리로 블랙박스 환경에서 악성 예제를 생성할 수 있는가?
- RQ2상위-k 클래스 레이블과 점수만 접근 가능한 상황에서 타겟 블랙박스 공격을 수행할 수 있는가?
- RQ3기울기 접근이 없는 블랙박스 환경에서 변환에 강건한 악성 예제를 효율적으로 생성할 수 있는가?
- RQ4제안된 방법이 실세계의 대규모 상용 분류기, 예를 들어 Google Cloud Vision API에 성공적으로 공격할 수 있는가?
- RQ5쿼리 효율성과 신뢰성 측면에서 NES 기반 기울기 추정은 유한 차분 방법보다 어떻게 비교되는가?
주요 결과
- 제안된 NES 기반 방법은 최적화된 유한 차분 방법 대비 쿼리 수를 2~3개 정도의 주요 차수 감소시켜, CIFAR-10과 ImageNet에서 높은 효율성을 달성한다.
- NES와 EOT 알고리즘을 조합하여 블랙박스 환경에서 처음으로 변환에 강건한 악성 예제를 생성한다.
- 상위-10,000개 이상의 클래스를 가진 상용 시스템인 Google Cloud Vision API에 대해 부분 정보만을 사용하여 성공적으로 타겟 공격을 수행하였다.
- 시각적 유사성을 유지하면서 스키어 이미지를 '개'로 잘못 분류하는 데 성공하여, 실세계 구현에서의 효과성을 입증하였다.
- 제한된 액세스 조건 하에서 기존의 대체 네트워크 및 유한 차분 기반 접근 방식보다 쿼리 효율성과 신뢰성 측면에서 모두 뛰어나다.
- 부분 정보 공격 알고리즘을 통해 공격자가 전체 클래스 분포나 신뢰도 점수를 관찰할 수 없더라도 효과적인 타겟 악성 예제 생성이 가능하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.