QUICK REVIEW

[논문 리뷰] Structured Adversarial Attack: Towards General Implementation and Better Interpretability

Kaidi Xu, Sijia Liu|arXiv (Cornell University)|2018. 08. 05.

Adversarial Robustness in Machine Learning인용 수 104

한 줄 요약

구조적 적대적 공격(StrAttack)을 도입하여 슬라이딩 마스크와 ADMM을 통해扰 perturbations에 대한 그룹 희소성을 강제하고, 해석 가능한 구조적扰动으로 해석 가능한 왜곡과 경쟁력 있는 왜곡을 달성합니다.

ABSTRACT

When generating adversarial examples to attack deep neural networks (DNNs), Lp norm of the added perturbation is usually used to measure the similarity between original image and adversarial example. However, such adversarial attacks perturbing the raw input spaces may fail to capture structural information hidden in the input. This work develops a more general attack model, i.e., the structured attack (StrAttack), which explores group sparsity in adversarial perturbations by sliding a mask through images aiming for extracting key spatial structures. An ADMM (alternating direction method of multipliers)-based framework is proposed that can split the original problem into a sequence of analytically solvable subproblems and can be generalized to implement other attacking methods. Strong group sparsity is achieved in adversarial perturbations even with the same level of Lp norm distortion as the state-of-the-art attacks. We demonstrate the effectiveness of StrAttack by extensive experimental results onMNIST, CIFAR-10, and ImageNet. We also show that StrAttack provides better interpretability (i.e., better correspondence with discriminative image regions)through adversarial saliency map (Papernot et al., 2016b) and class activation map(Zhou et al., 2016).

연구 동기 및 목표

이미지 내 공간 구조를 포착하기 위해 적대적扰动에서 그룹-희소성(group-sparsity)을 탐구한다.
구조화된 공격을 위한 일반적이고 효율적인 최적화 프레임워크를 개발한다.
StrAttack이 전통적인 왜곡 측정을 보존하면서 희소하게 구조된扰动를 생성하는지 보여준다.
감도 맵 및 클래스 활성 맵을 통한扰动의 해석 가능성을 입증한다.
StrAttack의 강건성을 데이터셋 전반과 방어 기법에 대해 평가한다.

제안 방법

扰扰을 그룹으로 분할하고 그룹-희소성을 g(Δ)라는 그룹 라쏘 유사 정규화로 강제하기 위해 슬라이딩 마스크를 정의한다.
손실 항, 왜곡 항, 그룹-희소 항을 포함하는 일반적인 공격 목적 함수를 형식화하고 이를 C&W 및 EAD의 특수한 경우와 연결한다.
닫힌 형 업데이트를 가능하게 하는 보조 변수들을 도입하여 ADMM으로 비볼록 문제를 효율적으로 해결한다(예: Δ-스텝, z-스텝, y-스텝, w-스텝).
비선형 손실 f(x0+z)를 다루고 z 업데이트를 닫힌 형으로 얻기 위해 Bregman 발산을 갖는 선형화된 ADMM 변형을 사용한다.
중첩되는 그룹 구조로 확장하고 여러 y-변수를 도입하며 ADMM 스텝을 수정한다.
희소한扰动 패턴을 고정하고 원래 목적하에서 값을 미세 조정하는 정제 메커니즘을 제공한다.
Provide a refinement mechanism that fixes a sparse perturbation pattern and fine-tunes values under the original objective.

실험 결과

연구 질문

RQ1구조화된(그룹-희소)扰动이 DNN을 오도하는 데 필요한 최소한의 영역을 식별할 수 있어 픽셀 단위의 왜곡을 증가시키지 않는가?
RQ2StrAttack가 기존의 놈-볼 공격(C&W, EAD 등)을 일반화하고扰动의 해석 가능성을 향상시키는가?
RQ3ADMM을 활용하여 구조화된 적대적扰동을 효율적으로 생성할 수 있는가, 중첩되는 그룹 포함?
RQ4ASM 및 CAM을 통해 교란된 영역과 판별적 이미지 영역 간의 더 명확한 대응을 StrAttack가 보여줄 수 있는가?
RQ5StrAttack가 방어 기법에 대해 효과적이며 대규모 데이터셋(MNIST, CIFAR-10, ImageNet) 및 다양한 모델에서도 잘 작동하는가?

주요 결과

StrAttack은 최첨단 공격과 비교 가능한 ℓp 왜곡을 유지하면서扰动에서 강한 그룹 희소성을 보여준다.
StrAttack扰动은 최소한으로 충분한 영역을 강조하며 목표 객체의 의미론적 구조와 종종 일치한다.
겹치는 그룹 구조는 가능하며 동일한 왜곡 제약하에 더 희소한扰动을 얻을 수 있다.
ADMM 기반 해법은 닫힌 형 업데이트를 제공하고 병렬화 가능한 스텝을 통해 기존 방법보다 효율성과 일반성을 향상시킨다.
StrAttack은 비구조적 공격에 비해 적대적 싸이널리티 맵 및 클래스 활성 맵을 통한 해석 가능성 개선을 보여준다.
StrAttack은 방어(방어적 증류 및 적대적 학습)에 대해 여전히 효과적이며 다수의 네트워크 아키텍처 간 전이 가능성이 크다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.