Skip to main content
QUICK REVIEW

[논문 리뷰] Black-box Adversarial Attacks with Limited Queries and Information

Andrew Ilyas, Logan Engstrom|arXiv (Cornell University)|2018. 04. 23.
Adversarial Robustness in Machine Learning참고 문헌 30인용 수 326
한 줄 요약

논문은 세 가지 현실적인 블랙박스 위협 모델—query-limited, partial-information, and label-only—을 정의하고, 이러한 제약 하에서 표적 적대적 예제를 신뢰성 있게 생성하는 쿼리 효율적인 공격을 제시하며, Google Cloud Vision API에 대한 표적 공격을 포함합니다.

ABSTRACT

Current neural network-based classifiers are susceptible to adversarial examples even in the black-box setting, where the attacker only has query access to the model. In practice, the threat model for real-world systems is often more restrictive than the typical black-box model where the adversary can observe the full output of the network on arbitrarily many chosen inputs. We define three realistic threat models that more accurately characterize many real-world classifiers: the query-limited setting, the partial-information setting, and the label-only setting. We develop new attacks that fool classifiers under these more restrictive threat models, where previous methods would be impractical or ineffective. We demonstrate that our methods are effective against an ImageNet classifier under our proposed threat models. We also demonstrate a targeted black-box attack against a commercial classifier, overcoming the challenges of limited query access, partial information, and other practical issues to break the Google Cloud Vision API.

연구 동기 및 목표

  • 현실적인 블랙박스 위협 모델을 설계하고 정형화한다: 쿼리 제한, 부분 정보, 그리고 라벨-전용 접근.
  • 제한된 접근 시나리오에서 작동하는 효율적인 공격 알고리즘을 개발하고 분석한다.
  • 대규모 데이터셋(ImageNet)과 실제 시스템(Google Cloud Vision API)에서 공격의 효과를 입증한다.

제안 방법

  • 쿼리 수가 제한된 설정에서 표적적 적대적 예제를 위한 그래디언트를 추정하기 위해 Natural Evolutionary Strategies (NES)를 적용한다.
  • 추정된 그래디언트를 가진 투사 기반의 PGD를 사용하여 ε-공간 바운드의 표적적 교란을 설계한다.
  • 일부 정보 공격은 대상 클래스 이미지에서 시작해 원본 이미지와의 혼합과 상위-k 제약 하의 대상 클래스 확률 최대화를 번갈아 수행하는 방식으로 구성된다.
  • 라벨-전용 설정으로 확장하려면 순위 기반의 프록시 점수와 임의 교란에 대한 강건성 정보를 도입하여 상위-k 라벨만으로도 표적 공격이 가능하게 한다.
  • 재현성을 위해 각 위협 모델에 대한 구체적인 알고리즘을 제공하고 소스 코드를 공개한다.

실험 결과

연구 질문

  • RQ1공격자가 분류기에 대해 제한된 쿼리 접근 권한을 가진 상태에서 표적적 적대적 예제를 효율적으로 생성할 수 있는가?
  • RQ2부분 정보 및 라벨-전용 제약 하에서 대규모 실제 분류기에서 높은 성공률을 유지하는가?
  • RQ3이러한 제한된 위협 모델 하에서 Google Cloud Vision 같은 상용 API를 공격하는 것이 가능한가?
  • RQ4제안된 공격들이 쿼리 효율성 및 성공률 측면에서 기존의 블랙박스 방법들과 비교하여 어떤 차이가 있는가?

주요 결과

  • 쿼리-제한 공격은 NES 기반 그래디언트 추정을 사용하여 이전의 그래디언트 추정 방법보다 훨씬 적은 쿼리로 높은 표적 성공을 달성한다(예: 2–3 orders of magnitude 더 효율적).
  • 부분 정보 공격은 상위-k 확률만 이용 가능해도 표적적 적대적 예제를 안정적으로 생성하며 ImageNet에서 실용적인 쿼리 수로 높은 성공률을 달성한다.
  • 라벨-전용 공격은 점수 사용이 불가능한 상황에서도 프록시 강건도 점수와 순위 정보를 이용해 최적화를 유도해 성공한다.
  • Google Cloud Vision API는 부분 정보 설정에서 성공적으로 공격되어 제안된 방법의 실제 세계 적용 가능성을 보여준다.
  • ε = 0.05에서 ImageNet 1000개 샘플에 대해 쿼리-제한 모델의 성공률은 99.2%, 부분 정보 모델은 ~49,624 쿼리로 93.6%, 라벨-전용 모델은 ~2.7백만 쿼리로 90%를 달성했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.