QUICK REVIEW

[논문 리뷰] Sign-OPT: A Query-Efficient Hard-label Adversarial Attack

Minhao Cheng, Simranjit Singh|arXiv (Cornell University)|2019. 09. 24.

Adversarial Robustness in Machine Learning참고 문헌 27인용 수 29

한 줄 요약

이 논문은 단일 쿼리 오라클을 사용하여 방향 도함수의 부호를 추정함으로써 더 빠른 수렴을 가능하게 하고, 최신 기술 대비 5–10배 적은 쿼리 수를 사용하는 쿼리 효율적인 하드 레이블 블랙박스 적대적 공격인 Sign-OPT를 제안한다. 이는 MNIST, CIFAR-10 및 ImageNet에서 더 작은 변형을 달성하고 기존 방법들을 일관되게 능가한다.

ABSTRACT

We study the most practical problem setup for evaluating adversarial robustness of a machine learning system with limited access: the hard-label black-box attack setting for generating adversarial examples, where limited model queries are allowed and only the decision is provided to a queried data input. Several algorithms have been proposed for this problem but they typically require huge amount (>20,000) of queries for attacking one example. Among them, one of the state-of-the-art approaches (Cheng et al., 2019) showed that hard-label attack can be modeled as an optimization problem where the objective function can be evaluated by binary search with additional model queries, thereby a zeroth order optimization algorithm can be applied. In this paper, we adopt the same optimization formulation but propose to directly estimate the sign of gradient at any direction instead of the gradient itself, which enjoys the benefit of single query. Using this single query oracle for retrieving sign of directional derivative, we develop a novel query-efficient Sign-OPT approach for hard-label black-box attack. We provide a convergence analysis of the new algorithm and conduct experiments on several models on MNIST, CIFAR-10 and ImageNet. We find that Sign-OPT attack consistently requires 5X to 10X fewer queries when compared to the current state-of-the-art approaches, and usually converges to an adversarial example with smaller perturbation.

연구 동기 및 목표

모델 예측값(로지트나 확률이 아닌)만 접근 가능한 하드 레이블 블랙박스 적대적 공격에서의 쿼리 효율성 문제를 해결하기 위해.
적대적 예제를 생성하기 위해 필요한 쿼리 수를 줄이기 위해, 이는 실용적이고 도청이 어려운 공격에 매우 중요하다.
평가 시마다 단 한 번의 쿼리만 사용하여 방향 도함수의 부호 정보를 활용하는 새로운 최적화 방법을 개발하기 위해.
하드 레이블 환경에서 제안된 Sign-OPT 알고리즘의 이론적 수렴 보장을 제공하기 위해.
기존 방법들과 비교하여 뛰어난 쿼리 효율성과 낮은 변형 크기를 실험적으로 입증하기 위해.

제안 방법

이 방법은 Cheng 등(2019)의 공식화를 활용하여 하드 레이블 공격을 부드러운 최적화 문제로 재구성함으로써 기울기 기반 최적화를 가능하게 한다.
이러한 방법은 두 개의 반대 부호를 가진 변형된 입력에 대한 모델 예측을 비교하여 방향 도함수의 부호를 추정하는 새로운 단일 쿼리 오라클을 도입한다.
알고리즘은 이 부호 오라클을 제로스터드 최적화 프레임워크 내에서 사용하며, 랜덤 방향 벡터의 크기를 포함하는 signSGD의 변종을 활용한다.
최적화는 추정된 기울기의 부호를 사용하여 반복적으로 변형을 갱신하며, 적절한 가정 하에 수렴 분석을 제공한다.
함수 평가를 위한 이분 탐색을 피함으로써 반복당 쿼리 비용을 수십 번에서 단 한 번으로 줄였다.
이 방법은 MNIST, CIFAR-10 및 ImageNet의 모델을 공격하는 데 적용되었으며, Boundary, OPT 및 ZO-SignSGD 기반 공격과 비교되었다.

실험 결과

연구 질문

RQ1하드 레이블 블랙박스 공격에서 방향 도함수의 부호를 단 한 번의 모델 쿼리만으로 추정할 수 있는가?
RQ2단일 쿼리 부호 오라클을 사용하면 적대적 공격의 총 쿼리 수가 상당히 감소하는가?
RQ3제안된 Sign-OPT 방법은 기존의 쿼리 효율적인 공격보다 더 작은 변형(낮은 $L_2$ 왜곡)을 달성할 수 있는가?
RQ4Sign-OPT의 수렴 행동은 하드 레이블 환경에서 기존의 제로스터드 최적화 방법과 비교해 어떻게 되는가?
RQ5단일 쿼리 부호 오라클은 하드 레이블 환경에서 다른 최적화 기반 공격 방법의 성능을 일반적으로 향상시킬 수 있는가?

주요 결과

Sign-OPT는 MNIST, CIFAR-10 및 ImageNet에서 현재 최고 수준의 OPT 공격 대비 쿼리 수를 5–10배 감소시켰다.
MNIST에서는 14,000회의 쿼리로 94%의 성공률과 평균 $L_2$ 왜곡 1.09를 달성했으며, OPT 및 Boundary 공격을 능가했다.
CIFAR-10에서는 12,000회의 쿼리로 95%의 성공률과 평균 $L_2$ 왜곡 0.13을 달성했으며, OPT 및 Boundary 공격보다 상당히 낮은 왜곡을 기록했다.
ImageNet(ResNet-50)에서는 160,000회의 쿼리로 90%의 성공률과 평균 $L_2$ 왜곡 1.21을 달성했으며, 동일한 쿼리 예산에서 OPT의 4.27보다 훨씬 낮았다.
단일 쿼리 부호 오라클은 Sign-OPT 뿐 아니라 ZO-SignSGD와 같은 다른 방법의 성능 향상에도 기여하여 일반적인 효과를 입증했다.
쿼리 수가 동일한 경우에도 Sign-OPT는 이전 방법들보다 항상 더 작은 변형을 가진 적대적 예제를 찾는 데 성공했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.