QUICK REVIEW

[논문 리뷰] Task-generalizable Adversarial Attack based on Perceptual Metric

Muzammal Naseer, Salman Khan|arXiv (Cornell University)|2018. 11. 22.

Adversarial Robustness in Machine Learning참고 문헌 28인용 수 30

한 줄 요약

이 논문은 VGG-16의 내부 표현을 활용하여 딥 페처 스페이스에서의 인지적 왜곡을 최대화함으로써 높은 이식성의 펄스러움을 생성하는 작업 일반화 가능한 적대적 공격을 제안한다. 기존의 작업 특화 공격과 달리, 작업에 종속적인 손실 함수나 레이블에 의존하지 않으며, 분류, 객체 검출, 세그멘테이션 작업 전반에 걸쳐 강력한 이식성을 확보한다.

ABSTRACT

Deep neural networks (DNNs) can be easily fooled by adding human imperceptible perturbations to the images. These perturbed images are known as `adversarial examples' and pose a serious threat to security and safety critical systems. A litmus test for the strength of adversarial examples is their transferability across different DNN models in a black box setting (i.e. when the target model's architecture and parameters are not known to attacker). Current attack algorithms that seek to enhance adversarial transferability work on the decision level i.e. generate perturbations that alter the network decisions. This leads to two key limitations: (a) An attack is dependent on the task-specific loss function (e.g. softmax cross-entropy for object recognition) and therefore does not generalize beyond its original task. (b) The adversarial examples are specific to the network architecture and demonstrate poor transferability to other network architectures. We propose a novel approach to create adversarial examples that can broadly fool different networks on multiple tasks. Our approach is based on the following intuition: "Perpetual metrics based on neural network features are highly generalizable and show excellent performance in measuring and stabilizing input distortions. Therefore an ideal attack that creates maximum distortions in the network feature space should realize highly transferable examples". We report extensive experiments to show how adversarial examples generalize across multiple networks for classification, object detection and segmentation tasks.

연구 동기 및 목표

기존의 적대적 공격가 다양한 딥 러닝 아키텍처와 비전 작업 간 이식성의 한계를 해결하기 위해.
현재의 공격가 분류를 초월해 일반화를 제한하는 작업 특화 손실 함수(예: 교차 엔트로피)에 의존하는 문제를 해결하기 위해.
특징 스페이스의 왜곡에만 기반하는 비지도적 적대적 공격을 개발하여 광범위한 적용 가능성을 확보하기 위해.
사전 훈련된 네트워크 특징에서의 인지적 왜곡이 높은 작업 간 및 아키텍처 간 이식성을 가진 적대적 예제를 생성할 수 있음을 입증하기 위해.

제안 방법

공격는 VGG-16의 특정 레이어(conv3.3)에서 원본 및 적대적 특징 맵 간의 신경 표현 왜곡(NRD)을 최대화한다.
NRD는 원본 및 변형된 특징 간의 평균 제곱차이로 계산되며, 미분 가능성과 안정성을 보장한다.
불가시성을 유지하기 위해 $l_∞$ 노름 제약($\leq \epsilon$) 하에 펄스러움이 최적화된다.
공격는 원본 모델(VGG-16)에서 백색 상자 설정으로 적용되며, 재학습 없이도 타겟 모델로 이식된다.
공격는 작업 특화 손실이나 레이블을 사용하지 않아, 비지도적이고 아키텍처에 무관한 목적을 가진다.
이 방법은 VGG 기반의 인지적 메트릭스가 인간의 인지와 잘 일치하고 작업 간 일반화가 잘 된다는 사실을 활용한다.

실험 결과

연구 질문

RQ1딥 페처 스페이스에서 인지적 왜곡을 최대화함으로써 생성된 적대적 예제가 다양한 비전 작업 간에 높은 이식성을 가지는가?
RQ2제안된 공격는 FGSM, MI-FGSM, DIM 등의 최신 기법과 비교해 볼 때, 예측 불가능한 모델과 작업으로의 이식성에서 어떻게 성능을 내는가?
RQ3분류 외에 객체 검출 및 세그멘테이션을 위한 모델에 적용했을 때도 공격가 여전히 효과적인가?
RQ4입력 변환(예: TVM, JPEG)은 블랙박스 설정에서 제안된 공격를 어느 정도 완화시키는가?
RQ5VGG-16 특징에 기반해 공격가 더 잘 작동하는 이유는 무엇인가? 비록 ImageNet에서 VGG의 상대적 정확도가 낮지만 말이다.

주요 결과

NRDM 공격는 IncRes-v2의 ImageNet 상 top-1 정확도를 100.0%에서 12.7%로 감소시켜, 다른 공격들보다 뛰어난 이식성을 입증했다.
MS-COCO 데이터셋에서 공격는 $l_∞ \leq 16$ 조건 하에 RetinaNet의 mAP를 53.78%에서 5.16%로 감소시켜 객체 검출 분야에서도 강력한 이식성을 보였다.
CAMVID에서의 세그멘테이션 작업에서, 공격는 동일한 펄스러움 예산 내에서 Segnet-Basic의 픽셀 단위 정확도를 47.11% 감소시켰다.
공격는 타겟 모델이 같은 아키텍처 패밀리에 속하지 않은 경우에도(예: VGG-16에서 Inception-ResNet-v2로) 높은 이식성을 유지했다.
TVM 및 중앙값 필터링과 같은 입력 변환은 부분적으로 공격를 완화시켰지만, 정상 예제의 정확도가 감소하는代价를 지ay했다.
공격는 자연적으로 훈련된 모델에는 효과적이었지만, MNIST 및 CIFAR-10에서 적대적 훈련된 Madry 모델에는 실패했으며, 이는 향후 방어 전략의 개선이 필요함을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.