QUICK REVIEW

[논문 리뷰] ADef: an Iterative Algorithm to Construct Adversarial Deformations

Rima Alaifari, Giovanni S. Alberti|arXiv (Cornell University)|2018. 04. 20.

Adversarial Robustness in Machine Learning참고 문헌 27인용 수 24

한 줄 요약

이 논문은 이미지에 추가적인 편향이 아닌 소규모이상의 변형을 적용함으로써 적대적 예제를 생성하는 반복적 기울기 기반 알고리즘인 ADef를 소개한다. 이는 MNIST 및 ImageNet에서 최신 분류기들을 99%의 성공률로 속일 수 있으며, 매우 미세한 변형을 사용함으로써 딥 네트워크가 표준 노름 기반 공격 외의 기하 변형에 취약함을 보여준다.

ABSTRACT

While deep neural networks have proven to be a powerful tool for many recognition and classification tasks, their stability properties are still not well understood. In the past, image classifiers have been shown to be vulnerable to so-called adversarial attacks, which are created by additively perturbing the correctly classified image. In this paper, we propose the ADef algorithm to construct a different kind of adversarial attack created by iteratively applying small deformations to the image, found through a gradient descent step. We demonstrate our results on MNIST with convolutional neural networks and on ImageNet with Inception-v3 and ResNet-101.

연구 동기 및 목표

표준 노름 기반 공격 외의 기하 변형을 악용하는 적대적 공격에 취약한 딥 네트워크 문제를 해결하기 위해.
시각적으로 인지하기 어려운, 기울기 기반의 효율적인 적대적 변형 생성 방법을 개발하기 위해.
특히 적대적 훈련을 거친 분류기들에 대한 변형 기반 공격에 대한 강건성 평가를 위해.
변형 기반 공격가 표준 편향 공격에 대비해 훈련된 방어 조치를 우회할 수 있음을 입증하기 위해.

제안 방법

ADef는 기하 변형의 노름을 최소화하면서 결정 경계 쪽으로 이미지를 이동시키기 위해 벡터장 τ를 최적화하는 반복 기울기 하강법을 사용한다.
이 알고리즘은 DeepFool을 기반으로 하되, 적대적 이미지가 y = x ∘ (id + τ)임을 고려해 변형 공간에 적응시켰다. 이는 y = x + r가 아닌 것이다.
부드럽고 자연스러운 변형을 보장하고 최적화의 안정성을 향상시키기 위해 벡터장 τ에 스무딩 연산을 적용한다.
분류기의 손실 함수에 대한 변형장 τ의 기울기를 계산함으로써, 오분류 위험을 극대화하는 방향으로 τ를 반복적으로 개선한다.
손실 함수를 수정하여 특정 타겟 클래스를 선호함으로써, 무차별적 및 타겟 공격을 모두 지원한다.
알고리즘은 CNN을 사용한 MNIST와 Inception-v3 및 ResNet-101을 사용한 ImageNet에서 평가되었으며, 편향의 ℓp 노름 대신 τ의 L2 노름을 사용해 인지적 유사도를 측정하였다.

실험 결과

연구 질문

RQ1추가 편향이 아닌 기하 변형인 적대적 변형을 사용하여, 시각적으로 변화가 거의 없는 상태에서 딥 네트워크 분류기를 오분류할 수 있는가?
RQ2표준 및 적대적 훈련을 거친 모델에 대해, 변형 기반 공격의 성공률는 표준 ℓ∞-노름 공격에 비해 어떻게 비교되는가?
RQ3ADef는 강건한 분류기일지라도, 시각적으로 인지하기 어려운데도 효과적인 적대적 예제를 생성할 수 있는가?
RQ4PGD를 사용한 훈련이 ADef를 사용한 훈련보다 변형 기반 공격에 대해 더 높은 강건성을 제공하는가?
RQ5변형장 τ와 그 노름은 인지적 유사도와 적대적 성공률와 어떻게 관련이 있는가?

주요 결과

ADef는 시각적으로 인지하기 어려운 변형을 사용하여 MNIST 및 ImageNet에서 최신 분류기를 약 99%의 성공률로 속였다.
MNIST에서 ADef는 PGD를 사용해 훈련한 네트워크에 대해 54.16%의 성공률를 기록했으며, 이는 PGD로 훈련된 모델이 ADef로 훈련된 모델보다 변형 기반 공격에 덜 강건함을 시사한다.
ADef가 생성한 변형은 기하 공격의 성격 덕분에, 기저 편향의 ℓ∞-노름이 크더라도 원본 이미지와 시각적으로 구분되지 않는다.
ImageNet에서는 고해상도의 자연스러운 변형을 가진 적대적 예제를 생성했으며, 변형장의 크기가 크더라도 시각적으로 인지되지 않았다.
PGD로 훈련한 네트워크는 ADef로 훈련한 네트워크보다 ADef 공격에 더 높은 저항성을 보였으며, 이는 방어 전략이 다양한 공격 유형을 고려해야 함을 시사한다.
ADef를 사용한 타겟 공격는 특정 낮은 확률의 레이블로 이미지를 이동시키는 데 효과적이었으며, 이는 방법의 유연성과 정밀도를 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.