QUICK REVIEW

[논문 리뷰] Parsimonious Black-Box Adversarial Attacks via Efficient Combinatorial Optimization

Seungyong Moon, Gaon An|arXiv (Cornell University)|2019. 05. 16.

Adversarial Robustness in Machine Learning인용 수 55

한 줄 요약

논문은 black-box 적대적 공격을 위한 이산적, 그래디언트-프리 대체를 도입하고 로컬 탐색과 지연 평가를 활용한 집합 최대화 문제를 해결하여 CIFAR-10 및 ImageNet에서 훨씬 더 적은 쿼리로 현 상태의 최강 공격 성능을 달성합니다.

ABSTRACT

Solving for adversarial examples with projected gradient descent has been demonstrated to be highly effective in fooling the neural network based classifiers. However, in the black-box setting, the attacker is limited only to the query access to the network and solving for a successful adversarial example becomes much more difficult. To this end, recent methods aim at estimating the true gradient signal based on the input queries but at the cost of excessive queries. We propose an efficient discrete surrogate to the optimization problem which does not require estimating the gradient and consequently becomes free of the first order update hyperparameters to tune. Our experiments on Cifar-10 and ImageNet show the state of the art black-box attack performance with significant reduction in the required queries compared to a number of recently proposed methods. The source code is available at https://github.com/snu-mllab/parsimonious-blackbox-attack.

연구 동기 및 목표

그래디언트를 사용할 수 없는 상태에서 ℓ∞ 제약 하의 흑상자 적대적 공격을 동기 부여한다.
경사 추정을 피하기 위해 ℓ∞-볼의 꼭짓점에 교란을 한정하는 이산 대체를 제안한다.
교란 위치를 효율적으로 선택하기 위해 지연 평가를 갖춘 가속 로컬 탐색 프레임워크를 개발한다.
쿼리 효율성을 위해 이미지 구조를 활용하는 계층적 블록 분할을 활용한다.
표준 데이터셋에서 감소된 쿼리 수로 최첨단 공격 성능을 입증한다.

제안 방법

F(S)=f(x+ϵ(S))인 V에 대한 집합 극대화로 공격을 형식화한다. 여기서 S는 교란된 픽셀 +ϵ이고 V\S는 -ϵ로 교란된 픽셀이다.
이 문제는 부분모듈성/근사 부분모듈적 극대화에 근접함을 보여 주어 그리디/로컬 탐색 기반 해를 가능하게 한다.
근사적인 부분모듈 F에 대해 삽입/삭제 등 로컬 탐색을 도입하고 이론적 보장(정리 1, 보조정리 1)을 제공한다.
여기서는 마진 증가 계산을 가속화하고 쿼리를 줄이기 위해 게으른 평가(알고리즘 1–3)를 적용한다.
이미지 블록에 대한 최적화를 수행하기 위해 계층적 게으른 평가(알고리즘 4–5)를 사용하고, 거칠게 시작해 더 세밀한 그리드로 다듬으며 쿼리 예산에 따라 조기 종료를 허용한다.

실험 결과

연구 질문

RQ1ℓ∞-볼 내에서 효율적으로 최적화할 수 있는 이산적이고 그래디언트-프리 대체가 흑상자 적대적 교란에 대해 효과적인가?
RQ2근사 부분모듈 최적화 기법이 흑상자 설정에서 더 적은 쿼리로 경쟁력 있거나 우수한 공격 성능을 제공하는가?
RQ3계층적이고 블록 기반의 평가가 고해상도 이미지에서 쿼리 효율성과 공격 성공에 어떠한 영향을 미치는가?
RQ4이 맥락에서의 게으른 평가의 이론적 보장과 실제 이점은 무엇인가?
RQ5제안된 방법이 CIFAR-10 및 ImageNet에서 무표적 및 표적 설정의 최첨단 흑상자 공격과 어떻게 비교되는가?

주요 결과

방법	성공률	평균 쿼리	중간 쿼리	NES 성공 시 평균 쿼리
PGD (white-box)	47.2%	20	-	-
NES	29.5%	2872	900	2872
Bandits	38.6%	1877	459	520
Ours	48.0%	1261	356	247
PGD (white-box)	99.9%	20	-	-
NES†	77.8%	1735	-	1735
NES	80.3%	1660	900	1660
Bandits†	95.4%	1117	-	703
Bandits	94.9%	1030	286	603
Ours	98.5%	722	237	376
PGD (white-box)	100%	200	-	-
NES†	99.2%	-	11550	-
NES	99.7%	16284	12650	16284
Bandits†	92.3%	26421	18642	26421
Bandits	-	-	-	-
Ours	99.9%	7485	5373	7371

NES 및 Bandits 기준선 대비 CIFAR-10 및 ImageNet에서 더 적은 쿼리로 더 높거나 동등한 공격 성공률을 달성한다.
CIFAR-10 무표적 공격에서 Our: 48.0% 성공률에 평균 1261 쿼리 vs Bandits 38.6%에 평균 1877 쿼리.
ImageNet 무표적 공격에서 Our: 98.5% 성공률에 평균 722 쿼리 vs Bandits 95.4%에 평균 1117 쿼리.
ImageNet 표적 공격에서 Our: 99.9% 성공률에 평균 7485 쿼리 vs NES 16284 평균 쿼리와 Bandits 26421 평균 쿼리.
일부 CIFAR-10 설정에서 White-box PGD 성능에 근접하는 방법이며 흑상자 제약을 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.