QUICK REVIEW

[논문 리뷰] Improving Black-box Adversarial Attacks with a Transfer-based Prior

Shuyu Cheng, Yinpeng Dong|arXiv (Cornell University)|2019. 06. 17.

Adversarial Robustness in Machine Learning참고 문헌 35인용 수 124

한 줄 요약

본 논문은 프라이어-가이드된 랜덤 그래디언트-프리(P-RGF) 방법을 도입하여 전달 기반 대리 기울기와 쿼리 피드백을 결합해 더 쿼리 효율적인 블랙박스 적대적 공격을 구현한다. 대리 기울기의 가중치를 조정하는 최적의 결합 계수를 도출하고, 모델 및 방어에 걸쳐 공격 성공률이 우수하고 쿼리 수가 더 적은 것을 입증한다.

ABSTRACT

We consider the black-box adversarial setting, where the adversary has to generate adversarial perturbations without access to the target models to compute gradients. Previous methods tried to approximate the gradient either by using a transfer gradient of a surrogate white-box model, or based on the query feedback. However, these methods often suffer from low attack success rates or poor query efficiency since it is non-trivial to estimate the gradient in a high-dimensional space with limited information. To address these problems, we propose a prior-guided random gradient-free (P-RGF) method to improve black-box adversarial attacks, which takes the advantage of a transfer-based prior and the query information simultaneously. The transfer-based prior given by the gradient of a surrogate model is appropriately integrated into our algorithm by an optimal coefficient derived by a theoretical analysis. Extensive experiments demonstrate that our method requires much fewer queries to attack black-box models with higher success rates compared with the alternative state-of-the-art methods.

연구 동기 및 목표

블랙박스 적대적 공격의 비효율성(제한된 정보로 인한 기울기 추정)을 동기화하고 해결한다.
대리 화이트박스 모델에서의 전달 기반 프라이어를 활용하여 기울기 추정을 개선한다.
전이 기울기를 난수 추정치와 융합하기 위한 최적 계수(결합 상수)를 도출한다.
프라이어를 쿼리 피드백과 결합하면 공격 성공률이 높아지고 쿼리 수가 감소하는 것을 보여준다.
이미지넷에서 일반 모델과 방어 모델에 대해 강건성을 입증한다.

제안 방법

프라이어-가이드된 랜덤 그래디언트-프리(P-RGF)를 제안하며, 대리 모델의 전달 그래디언트로부터의 편향된 무작위 그래디언트 방향을 유도한다.
진짜 그래디언트와 스케일링된 추정치 간의 최소 제곱 거리로 그래디언트 추정 손실을 모델링하고 스케일 b를 최적화한다.
샘플링 분포 C = λ v v^T + ((1−λ)/(D−1))(I−v v^T)에서 전달 그래디언트 v를 가중하는 최적 혼합 매개변수 λ*를 도출한다.
전달 그래디언트와 실제 그래디언트 사이의 코사인 유사도 α와 쿼리 예산 q(및 차원 D)의 함수로 λ*의 닫힌 형태 해를 제공한다.
α를 추정하는 실용적 절차(유한 차분법 이용)와 q개의 쿼리에 대해 편향된 무작위 방향 u_i를 샘플링하는 방법을 제시한다.
P-RGF에 데이터 의존 프라이어를 포함하도록 V 서브스페이스 프로젝션을 통합하고 해당 λ*를 도출한다(투영된 그래디언트 파워를 A^2로 표현).
ℓ2 공격에서 ImageNet에 대해 Inception-v3 대리 모델로 접근하며 NES, Bandits, AutoZoom, 표준 RGF와 비교를 통해 접근의 효과를 시연한다.

실험 결과

연구 질문

RQ1전이 기반 프라이어를 최적으로 가중화하여 블랙박스 공격에서 그래디언트 추정이 향상될 수 있는가?
RQ2전달 지침과 무작위 탐색의 균형을 맞추기 위해 최적의 결합 계수 λ*를 어떻게 계산하는가?
RQ3데이터 의존 프라이어를 결합하면 쿼리 수를 더 줄이면서도 공격 성공을 유지할 수 있는가?
RQ4P-RGF의 이점은 다양한 대상 모델과 방어 메커니즘에서 일관되는가?

주요 결과

방법	Inception-v3 ASR	Inception-v3 평균 쿼리 수	VGG-16 ASR	VGG-16 평균 쿼리 수	ResNet-50 ASR	ResNet-50 평균 쿼리 수
NES	95.5%	1718	98.7%	1081	98.4%	969
Bandits T	92.4%	1560	94.0%	584	96.2%	1076
Bandits TD	97.2%	874	94.9%	278	96.8%	512
AutoZoom	85.4%	2443	96.2%	1589	94.8%	2065
RGF	97.7%	1309	99.8%	749	99.6%	673
P-RGF (λ=0.5)	96.5%	1119	97.8%	710	98.7%	635
P-RGF (λ=0.05)	97.8%	1021	99.7%	624	99.3%	511
P-RGF (λ*)	98.1%	745	99.6%	331	99.6%	265
RGF D	99.1%	910	100.0%	372	99.7%	429
P-RGF D (λ=0.5)	98.2%	1047	99.7%	634	99.5%	552
P-RGF D (λ=0.05)	99.1%	754	99.9%	359	99.8%	379
P-RGF D (λ*)	99.1%	649	99.8%	250	99.6%	232

P-RGF는 ℓ2 공격에서 Inception-v3, VGG-16 및 ResNet-50에 대해 최첨단 방법들보다 더 높은 공격 성공률과 더 적은 쿼리를 달성했다.
최적의 λ*은 코사인 유사도 α가 높을수록 증가하고 더 많은 쿼리 q가 주어질수록 감소하여 전달 프라이어에 더 많이 의존할 때의 시점을 확인해 준다.
적응형 λ*를 사용하는 것이 고정된 λ 값보다 우수하고 순수 전달 그래디언트 또는 균일한 무작위 그래디언트 추정보다 성능이 좋다.
데이터 의존 프라이어(D)를 전달 프라이어에 직교하도록 결합하면 성능이 추가로 향상되어 평균 쿼리 수가 더 감소한다.
JPEG 압축, 무작위화, 가이드 보정형 디노이저 등 다양한 방어에서 P-RGF(데이터 프라이어 유무에 관계없이) 기법이 기준보다 높은 ASR과 낮은 쿼리 수를 보인다.
해당 방법은 그래디언트 추정의 효율성이 뛰어나며, 초기 최적화에서 대리 그래디언트에 대한 편향 적응이 가장 이익이 크고, 이후에도 개선된 그래디언트 추정을 통해 도움이 된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.