QUICK REVIEW

[논문 리뷰] Simple Black-box Adversarial Attacks

Chuan Guo, Jacob R. Gardner|arXiv (Cornell University)|2019. 05. 17.

Adversarial Robustness in Machine Learning인용 수 160

한 줄 요약

SimBA를 도입한 간단하고 매우 쿼리 효율적인 블랙박스 공격으로, 무작위 직교 방향을 사용해 입력을 교란하고 신뢰도 점수로 가이드하여, 훨씬 더 적은 쿼리로 경쟁력 있는 성공률을 달성한다.

ABSTRACT

We propose an intriguingly simple method for the construction of adversarial images in the black-box setting. In constrast to the white-box scenario, constructing black-box adversarial images has the additional constraint on query budget, and efficient attacks remain an open problem to date. With only the mild assumption of continuous-valued confidence scores, our highly query-efficient algorithm utilizes the following simple iterative principle: we randomly sample a vector from a predefined orthonormal basis and either add or subtract it to the target image. Despite its simplicity, the proposed method can be used for both untargeted and targeted attacks -- resulting in previously unprecedented query efficiency in both settings. We demonstrate the efficacy and efficiency of our algorithm on several real world settings including the Google Cloud Vision API. We argue that our proposed algorithm should serve as a strong baseline for future black-box attacks, in particular because it is extremely fast and its implementation requires less than 20 lines of PyTorch code.

연구 동기 및 목표

쿼리 예산 제약 하에서 실용적 블랙박스 적대적 공격을 동기부여하고 형식화한다.
SimBA를 소개한다, 모델 신뢰도 점수로 안내받는 직교 탐색 방향을 사용하는 간단한 반복 방법.
ImageNet 및 실제 구글 클라우드 비전 API에 대해 기존의 블랙박스 공격과 SimBA를 평가한다.
扰perturbation 경계에 대한 이론적 통찰과 축소 및 시드 선택에 대한 실용적 가이드를 제공한다.

제안 방법

미리 정의된 기저 Q에서 무작위 직교 탐색 방향 q를 반복적으로 선택한다.
양의 방향으로 크기 epsilon의 한 단계를 시도하고, 대상 클래스 확률을 감소시키지 않으면 음의 방향을 시도한다.
한 방향이 대상 확률을 감소시키면 섭동 Δ를 업데이트하고 직교성을 통해 소거를 방지한다.
픽셀 공간(Q = 표준 기저) 또는 저주파수 DCT 공간(Q_DCT) 방향을 사용해 탐색을 안내한다.
직교성으로 인해 최종 섭동 노름을 ||Δ_T||_2 <= sqrt(T) * epsilon로 한정하여 예산 T를 섭동 크기와 연결한다.
하이퍼파라미터를 최소화: 직교 기저 Q와 스텝 크기 epsilon; 기울기 정보 필요 없음

실험 결과

연구 질문

RQ1적은 쿼리로 블랙박스 환경에서 불 perceptible 한 적대적 예제를 구성할 수 있는가?
RQ2직교 탐색 방향(픽셀 공간 또는 저주파 DCT 공간)을 사용하면 판정 경계로의 효율적 탐색이 가능해지는가?
RQ3간단한 블랙박스 공격에서 쿼리 예산과 섭동 노름 간의 trade-off는 어떻게 되는가?
RQ4간단한 구현으로 Google Cloud Vision과 같은 실제 서비스에 대해 경쟁력 있는 성공률을 달성할 수 있는가?

주요 결과

Attack	Average queries	Average L2	Success rate
Boundary attack	123,407	5.98	100%
Opt-attack	71,100	6.98	100%
LFBA	30,000	6.34	100%
QL-attack	28,174	8.27	85.4%
Bandits-TD	5,251	5.00	80.5%
SimBA	1,665	3.98	98.6%
SimBA-DCT	1,283	3.06	97.8%
QL-attack	20,614	11.39	98.7%
AutoZOOM	13,525	26.74	100%
SimBA	7,899	9.53	100%
SimBA-DCT	8,824	7.04	96.5%

SimBA는 ImageNet에서 강력한 벤치마크 대비 현저히 적은 쿼리로 Untargeted 및 Targeted 공격 모두에서 높은 성공률을 달성한다.
픽셀 공간의 SimBA와 저주파 DCT 공간의 SimBA-DCT는 경쟁자들보다 훨씬 적은 쿼리로 거의 100%에 근접한 성공률에 도달한다(예: Untargeted의 경우 약 1,665 평균 쿼리, SimBA-DCT는 약 1,283).
SimBA-DCT는 종종 더 빨리 수렴하지만 엄격한 쿼리 한도 내에서 일부 이미지에서 실패할 수 있으며, 반면 SimBA는 이미지 전반에 걸쳐 더 일관된 성공을 유지한다.
Google Cloud Vision에서 SimBA는 5,000 API 호출 안에서 약 70%의 성공률을 달성하여 동일 예산의 LFBA를 능가한다.
SimBA 및 SimBA-DCT가 생성한 섭동은 QL-attack보다 평균 L2 노름이 현저히 낮아 더 효율적인 섭동임을 시사한다.
공격은 여러 아키텍처(ResNet-50, DenseNet-121)에서 강건하지만 일부 네트워크(Inception v3 등)는 성공을 위해 더 많은 쿼리가 필요하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.