QUICK REVIEW

[논문 리뷰] Enhancing Adversarial Example Transferability with an Intermediate Level Attack

Qian Huang, Isay Katsman|arXiv (Cornell University)|2019. 07. 23.

Adversarial Robustness in Machine Learning참고 문헌 31인용 수 40

한 줄 요약

ILA는 사전에 지정된 중간 계층의 섭동을 강조하여 기존의 적대적 예제를 미세 조정하고, 모델 간의 블랙박스 전달성을 높인다.

ABSTRACT

Neural networks are vulnerable to adversarial examples, malicious inputs crafted to fool trained models. Adversarial examples often exhibit black-box transfer, meaning that adversarial examples for one model can fool another model. However, adversarial examples are typically overfit to exploit the particular architecture and feature representation of a source model, resulting in sub-optimal black-box transfer attacks to other target models. We introduce the Intermediate Level Attack (ILA), which attempts to fine-tune an existing adversarial example for greater black-box transferability by increasing its perturbation on a pre-specified layer of the source model, improving upon state-of-the-art methods. We show that we can select a layer of the source model to perturb without any knowledge of the target models while achieving high transferability. Additionally, we provide some explanatory insights regarding our method and the effect of optimizing for adversarial examples using intermediate feature maps. Our code is available at https://github.com/CUVL/Intermediate-Level-Attack.

연구 동기 및 목표

블랙박스 설정에서 화이트박스 적대적 공격의 낮은 전달성을 동기 부여하고 그것을 해결한다.
중간 계층 섭동을 통해 기존의 적대적 예제를 조정하기 위한 중간 계층 공격(ILA)을 도입한다.
대상 모델에 대한 접근이 필요 없는 계층 선택 전략을 제공한다.
중간 표현이 전달성에 영향을 미치는지에 대한 이론적 및 경험적 통찰을 제공한다.

제안 방법

ILAP(투영 기반 손실)과 ILAF(크기와 방향도 제어하는 유연한 손실)라는 두 가지 ILA 변형을 정의한다.
미세 조정 단계로 작동한다: 기본 공격 A에서 미리 생성된 적대적 예제 x'에서 시작하여 선택된 계층 l에서의 섭동을 최대화하기 위해 epsilon-구역 내에서 최적화한다.
ILAP 손실: L = -Δy_l'' · Δy_l' 여기서 Δy_l'과 Δy_l''는 각각 x'와 x''의 계층 l 출력 차이이다.
ILAF 손실: L = -α * ||Δy_l''||_2 / ||Δy_l'||_2 - (Δy_l'' / ||Δy_l''||_2) · (Δy_l' / ||Δy_l'||_2).
계층 선택 가이드라인: 계층 전체에서 가장 늦은 피크를 보이는 계층을 식별하는 것이 전달성 증가와 상관관계가 있다.
CIFAR-10 및 ImageNet에서 다수의 모델(예: ResNet18, SENet18, DenseNet121, GoogLeNet) 및 I-FGSM, MI-FGSM, CARLINI-WAGNER 변형과 같은 베이스라인에 대해 평가한다.

실험 결과

연구 질문

RQ1소스 모델의 중간 계층을 섭동하면 블랙박스 전달력이 증가할 수 있는가?
RQ2전달 모델 접근 없이도 전달성을 최대화하기 위해 미리 식별할 수 있는 계층별 섭동 패턴이 존재하는가?
RQ3ILAP와 ILAF가 TAP, DI2-FGSM 등 기존 전달성 중심 공격과 표준 데이터셋과 ImageNet에서 어떻게 비교되는가?
RQ4가까운 최적의 중간 계층을 선택하는 방법이 서로 다른 대상 모델과 아키텍처 전반에 일반화되는가?

주요 결과

ILA는 여러 모델과 데이터셋에 걸쳐 기저 공격 대비 전달성을 향상시킨다.
특정 중간 계층(특히 특정 후반 계층)을 겨냥하면 전달이 더 강해지며, 대상 모델에 접근하지 않고도 계층 선택이 가능하다.
ILAP는 종종 기저 공격보다 우수하며 ImageNet 설정에서 TAP 및 DI2-FGSM과 같은 일부 최첨단 전달 공격을 능가할 수 있다.
ILAF는 전달성을 더욱 향상시킬 수 있지만 ILAP를 능가하려면 모델별 하이퍼파라미터 튜닝이 필요하다.
제안된 계층 선택 휴리스틱은 더 높은 전달성과 상관관계가 있으며, 전달 모델을 평가하지 않고도 거의 최적의 계층을 선택하는 데 사용할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.