Skip to main content
QUICK REVIEW

[논문 리뷰] Improving Black-box Adversarial Attacks with a Transfer-based Prior

Shuyu Cheng, Yinpeng Dong|arXiv (Cornell University)|2019. 06. 17.
Adversarial Robustness in Machine Learning참고 문헌 35인용 수 124
한 줄 요약

본 논문은 프라이어-가이드된 랜덤 그래디언트-프리(P-RGF) 방법을 도입하여 전달 기반 대리 기울기와 쿼리 피드백을 결합해 더 쿼리 효율적인 블랙박스 적대적 공격을 구현한다. 대리 기울기의 가중치를 조정하는 최적의 결합 계수를 도출하고, 모델 및 방어에 걸쳐 공격 성공률이 우수하고 쿼리 수가 더 적은 것을 입증한다.

ABSTRACT

We consider the black-box adversarial setting, where the adversary has to generate adversarial perturbations without access to the target models to compute gradients. Previous methods tried to approximate the gradient either by using a transfer gradient of a surrogate white-box model, or based on the query feedback. However, these methods often suffer from low attack success rates or poor query efficiency since it is non-trivial to estimate the gradient in a high-dimensional space with limited information. To address these problems, we propose a prior-guided random gradient-free (P-RGF) method to improve black-box adversarial attacks, which takes the advantage of a transfer-based prior and the query information simultaneously. The transfer-based prior given by the gradient of a surrogate model is appropriately integrated into our algorithm by an optimal coefficient derived by a theoretical analysis. Extensive experiments demonstrate that our method requires much fewer queries to attack black-box models with higher success rates compared with the alternative state-of-the-art methods.

연구 동기 및 목표

  • 블랙박스 적대적 공격의 비효율성(제한된 정보로 인한 기울기 추정)을 동기화하고 해결한다.
  • 대리 화이트박스 모델에서의 전달 기반 프라이어를 활용하여 기울기 추정을 개선한다.
  • 전이 기울기를 난수 추정치와 융합하기 위한 최적 계수(결합 상수)를 도출한다.
  • 프라이어를 쿼리 피드백과 결합하면 공격 성공률이 높아지고 쿼리 수가 감소하는 것을 보여준다.
  • 이미지넷에서 일반 모델과 방어 모델에 대해 강건성을 입증한다.

제안 방법

  • 프라이어-가이드된 랜덤 그래디언트-프리(P-RGF)를 제안하며, 대리 모델의 전달 그래디언트로부터의 편향된 무작위 그래디언트 방향을 유도한다.
  • 진짜 그래디언트와 스케일링된 추정치 간의 최소 제곱 거리로 그래디언트 추정 손실을 모델링하고 스케일 b를 최적화한다.
  • 샘플링 분포 C = λ v v^T + ((1−λ)/(D−1))(I−v v^T)에서 전달 그래디언트 v를 가중하는 최적 혼합 매개변수 λ*를 도출한다.
  • 전달 그래디언트와 실제 그래디언트 사이의 코사인 유사도 α와 쿼리 예산 q(및 차원 D)의 함수로 λ*의 닫힌 형태 해를 제공한다.
  • α를 추정하는 실용적 절차(유한 차분법 이용)와 q개의 쿼리에 대해 편향된 무작위 방향 u_i를 샘플링하는 방법을 제시한다.
  • P-RGF에 데이터 의존 프라이어를 포함하도록 V 서브스페이스 프로젝션을 통합하고 해당 λ*를 도출한다(투영된 그래디언트 파워를 A^2로 표현).
  • ℓ2 공격에서 ImageNet에 대해 Inception-v3 대리 모델로 접근하며 NES, Bandits, AutoZoom, 표준 RGF와 비교를 통해 접근의 효과를 시연한다.

실험 결과

연구 질문

  • RQ1전이 기반 프라이어를 최적으로 가중화하여 블랙박스 공격에서 그래디언트 추정이 향상될 수 있는가?
  • RQ2전달 지침과 무작위 탐색의 균형을 맞추기 위해 최적의 결합 계수 λ*를 어떻게 계산하는가?
  • RQ3데이터 의존 프라이어를 결합하면 쿼리 수를 더 줄이면서도 공격 성공을 유지할 수 있는가?
  • RQ4P-RGF의 이점은 다양한 대상 모델과 방어 메커니즘에서 일관되는가?

주요 결과

방법Inception-v3 ASRInception-v3 평균 쿼리 수VGG-16 ASRVGG-16 평균 쿼리 수ResNet-50 ASRResNet-50 평균 쿼리 수
NES95.5%171898.7%108198.4%969
Bandits T92.4%156094.0%58496.2%1076
Bandits TD97.2%87494.9%27896.8%512
AutoZoom85.4%244396.2%158994.8%2065
RGF97.7%130999.8%74999.6%673
P-RGF (λ=0.5)96.5%111997.8%71098.7%635
P-RGF (λ=0.05)97.8%102199.7%62499.3%511
P-RGF (λ*)98.1%74599.6%33199.6%265
RGF D99.1%910100.0%37299.7%429
P-RGF D (λ=0.5)98.2%104799.7%63499.5%552
P-RGF D (λ=0.05)99.1%75499.9%35999.8%379
P-RGF D (λ*)99.1%64999.8%25099.6%232
  • P-RGF는 ℓ2 공격에서 Inception-v3, VGG-16 및 ResNet-50에 대해 최첨단 방법들보다 더 높은 공격 성공률과 더 적은 쿼리를 달성했다.
  • 최적의 λ*은 코사인 유사도 α가 높을수록 증가하고 더 많은 쿼리 q가 주어질수록 감소하여 전달 프라이어에 더 많이 의존할 때의 시점을 확인해 준다.
  • 적응형 λ*를 사용하는 것이 고정된 λ 값보다 우수하고 순수 전달 그래디언트 또는 균일한 무작위 그래디언트 추정보다 성능이 좋다.
  • 데이터 의존 프라이어(D)를 전달 프라이어에 직교하도록 결합하면 성능이 추가로 향상되어 평균 쿼리 수가 더 감소한다.
  • JPEG 압축, 무작위화, 가이드 보정형 디노이저 등 다양한 방어에서 P-RGF(데이터 프라이어 유무에 관계없이) 기법이 기준보다 높은 ASR과 낮은 쿼리 수를 보인다.
  • 해당 방법은 그래디언트 추정의 효율성이 뛰어나며, 초기 최적화에서 대리 그래디언트에 대한 편향 적응이 가장 이익이 크고, 이후에도 개선된 그래디언트 추정을 통해 도움이 된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.