Skip to main content
QUICK REVIEW

[논문 리뷰] ADef: an Iterative Algorithm to Construct Adversarial Deformations

Rima Alaifari, Giovanni S. Alberti|arXiv (Cornell University)|2018. 04. 20.
Adversarial Robustness in Machine Learning참고 문헌 27인용 수 24
한 줄 요약

이 논문은 이미지에 추가적인 편향이 아닌 소규모이상의 변형을 적용함으로써 적대적 예제를 생성하는 반복적 기울기 기반 알고리즘인 ADef를 소개한다. 이는 MNIST 및 ImageNet에서 최신 분류기들을 99%의 성공률로 속일 수 있으며, 매우 미세한 변형을 사용함으로써 딥 네트워크가 표준 노름 기반 공격 외의 기하 변형에 취약함을 보여준다.

ABSTRACT

While deep neural networks have proven to be a powerful tool for many recognition and classification tasks, their stability properties are still not well understood. In the past, image classifiers have been shown to be vulnerable to so-called adversarial attacks, which are created by additively perturbing the correctly classified image. In this paper, we propose the ADef algorithm to construct a different kind of adversarial attack created by iteratively applying small deformations to the image, found through a gradient descent step. We demonstrate our results on MNIST with convolutional neural networks and on ImageNet with Inception-v3 and ResNet-101.

연구 동기 및 목표

  • 표준 노름 기반 공격 외의 기하 변형을 악용하는 적대적 공격에 취약한 딥 네트워크 문제를 해결하기 위해.
  • 시각적으로 인지하기 어려운, 기울기 기반의 효율적인 적대적 변형 생성 방법을 개발하기 위해.
  • 특히 적대적 훈련을 거친 분류기들에 대한 변형 기반 공격에 대한 강건성 평가를 위해.
  • 변형 기반 공격가 표준 편향 공격에 대비해 훈련된 방어 조치를 우회할 수 있음을 입증하기 위해.

제안 방법

  • ADef는 기하 변형의 노름을 최소화하면서 결정 경계 쪽으로 이미지를 이동시키기 위해 벡터장 τ를 최적화하는 반복 기울기 하강법을 사용한다.
  • 이 알고리즘은 DeepFool을 기반으로 하되, 적대적 이미지가 y = x ∘ (id + τ)임을 고려해 변형 공간에 적응시켰다. 이는 y = x + r가 아닌 것이다.
  • 부드럽고 자연스러운 변형을 보장하고 최적화의 안정성을 향상시키기 위해 벡터장 τ에 스무딩 연산을 적용한다.
  • 분류기의 손실 함수에 대한 변형장 τ의 기울기를 계산함으로써, 오분류 위험을 극대화하는 방향으로 τ를 반복적으로 개선한다.
  • 손실 함수를 수정하여 특정 타겟 클래스를 선호함으로써, 무차별적 및 타겟 공격을 모두 지원한다.
  • 알고리즘은 CNN을 사용한 MNIST와 Inception-v3 및 ResNet-101을 사용한 ImageNet에서 평가되었으며, 편향의 ℓp 노름 대신 τ의 L2 노름을 사용해 인지적 유사도를 측정하였다.

실험 결과

연구 질문

  • RQ1추가 편향이 아닌 기하 변형인 적대적 변형을 사용하여, 시각적으로 변화가 거의 없는 상태에서 딥 네트워크 분류기를 오분류할 수 있는가?
  • RQ2표준 및 적대적 훈련을 거친 모델에 대해, 변형 기반 공격의 성공률는 표준 ℓ∞-노름 공격에 비해 어떻게 비교되는가?
  • RQ3ADef는 강건한 분류기일지라도, 시각적으로 인지하기 어려운데도 효과적인 적대적 예제를 생성할 수 있는가?
  • RQ4PGD를 사용한 훈련이 ADef를 사용한 훈련보다 변형 기반 공격에 대해 더 높은 강건성을 제공하는가?
  • RQ5변형장 τ와 그 노름은 인지적 유사도와 적대적 성공률와 어떻게 관련이 있는가?

주요 결과

  • ADef는 시각적으로 인지하기 어려운 변형을 사용하여 MNIST 및 ImageNet에서 최신 분류기를 약 99%의 성공률로 속였다.
  • MNIST에서 ADef는 PGD를 사용해 훈련한 네트워크에 대해 54.16%의 성공률를 기록했으며, 이는 PGD로 훈련된 모델이 ADef로 훈련된 모델보다 변형 기반 공격에 덜 강건함을 시사한다.
  • ADef가 생성한 변형은 기하 공격의 성격 덕분에, 기저 편향의 ℓ∞-노름이 크더라도 원본 이미지와 시각적으로 구분되지 않는다.
  • ImageNet에서는 고해상도의 자연스러운 변형을 가진 적대적 예제를 생성했으며, 변형장의 크기가 크더라도 시각적으로 인지되지 않았다.
  • PGD로 훈련한 네트워크는 ADef로 훈련한 네트워크보다 ADef 공격에 더 높은 저항성을 보였으며, 이는 방어 전략이 다양한 공격 유형을 고려해야 함을 시사한다.
  • ADef를 사용한 타겟 공격는 특정 낮은 확률의 레이블로 이미지를 이동시키는 데 효과적이었으며, 이는 방법의 유연성과 정밀도를 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.