QUICK REVIEW

[논문 리뷰] Query-Efficient Black-box Adversarial Examples

Andrew Ilyas, Logan Engstrom|arXiv (Cornell University)|2017. 12. 19.

Adversarial Robustness in Machine Learning인용 수 25

한 줄 요약

이 논문은 자연 진화 전략을 사용한 쿼리 효율적인 블랙박스 적대적 공격 방법과 부분 정보 환경에서의 타겟 공격을 위한 새로운 알고리즘을 제안한다. 쿼리 사용량을 2~3개 주문 정도 감소시키며, 실용적 제약 조건 하에서 Google Cloud Vision API에 대한 첫 번째 성공적인 타겟 공격을 달성한다.

ABSTRACT

Current neural network-based image classifiers are susceptible to adversarial examples, even in the black-box setting, where the attacker is limited to query access without access to gradients. Previous methods --- substitute networks and coordinate-based finite-difference methods --- are either unreliable or query-inefficient, making these methods impractical for certain problems. We introduce a new method for reliably generating adversarial examples under more restricted, practical black-box threat models. First, we apply natural evolution strategies to perform black-box attacks using two to three orders of magnitude fewer queries than previous methods. Second, we introduce a new algorithm to perform targeted adversarial attacks in the partial-information setting, where the attacker only has access to a limited number of target classes. Using these techniques, we successfully perform the first targeted adversarial attack against a commercially deployed machine learning system, the Google Cloud Vision API, in the partial information setting.

연구 동기 및 목표

높은 쿼리 비용 또는 신뢰성 부족으로 인해 기존의 블랙박스 적대적 공격 방법이 실용적이지 않다는 점을 해결한다.
제한된 쿼리 접근성과 제한된 타겟 클래스 정보 하에서 강력한 블랙박스 공격 전략을 개발한다.
관측 가능한 클래스의 일부만 제공되는 부분 정보 환경에서의 타겟 적대적 공격을 가능하게 한다.
이전 방법들에 비해 상당히 감소된 쿼리 요구량을 통해 실용적 적용 가능성을 확보한다.
실제 상용 머신러닝 시스템(예: Google Cloud Vision API)을 성공적으로 공격함으로써 현실 세계 적용 가능성에 대한 증거를 제시한다.

제안 방법

기울기 정보 없이도 입력 공간을 효율적으로 탐색할 수 있도록, 적대적 편향을 최적화하기 위해 자연 진화 전략(NES)을 사용한다.
서브스티튜트 네트워크나 유한 차분 방법에 비해 훨씬 적은 쿼리로 블랙박스 공격을 수행하기 위해 NES를 활용한다.
가용한 타겟 클래스 수가 제한된 상황에서 타겟 공격을 위해 특화된 새로운 알고리즘을 설계한다.
부분 정보 환경을 활용해 쿼리 오버헤드를 최소화하면서도 특정 타겟 클래스로 향한 탐색을 유도한다.
적응형 샘플링과 신뢰도 기반 선택을 조합하여, 정보가 부족한 환경에서 수렴성과 성공률을 향상시킨다.
대상 모델의 쿼리 피드백를 반복적으로 활용하여 편향 생성 과정을 최적화한다.

실험 결과

연구 질문

RQ1자연 진화 전략은 블랙박스 적대적 공격에서 쿼리 복잡도를 효과적으로 줄이기 위해 적절히 적응시킬 수 있는가?
RQ2모델의 출력 클래스에 대한 접근이 부분적으로만 가능할 경우, 어떻게 타겟 적대적 공격를 수행할 수 있는가?
RQ3실용적인 블랙박스 위협 모델 하에서 신뢰성 있게 타겟 적대적 예제를 생성하기 위해 필요한 최소 쿼리 수는 얼마인가?
RQ4쿼리 효율적인 방법이 실세계 상용으로 배포된 머신러닝 시스템(예: Google Cloud Vision API)을 성공적으로 공격할 수 있는가?
RQ5기존의 서브스티튜트 네트워크 및 좌표 기반 유한 차분 방법에 비해 제안된 방법은 쿼리 효율성과 성공률 측면에서 어떻게 비교되는가?

주요 결과

제안된 방법은 이전의 블랙박스 공격 방법에 비해 쿼리 사용량을 2~3개 주문 정도 감소시킨다.
이 방법은 관측 가능한 클래스의 일부만 제공되는 부분 정보 환경에서 타겟 적대적 공격을 성공적으로 수행한다.
실제 블랙박스 제약 조건 하에서 Google Cloud Vision API에 대한 첫 번째 알려진 타겟 공격을 달성한다.
자연 진화 전략의 사용으로 기울기 접근 없이도 신뢰성 있고 효율적인 적대적 편향 최적화가 가능하다.
제한된 피드백 환경에서도 높은 성공률을 유지하여 정보가 부족한 환경에서의 강건성을 입증한다.
쿼리 효율성과 신뢰성 측면에서 모두 서브스티튜트 네트워크 및 유한 차분 방법보다 뛰어나다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.