Skip to main content
QUICK REVIEW

[논문 리뷰] Learning to Confuse: Generating Training Time Adversarial Data with Auto-Encoder

Feng Ji, Qi-Zhi Cai|arXiv (Cornell University)|2019. 05. 22.
Anomaly Detection Techniques and Applications인용 수 26
한 줄 요약

이 논문은 테스트 시기 동안 어떤 후행 분류기의 일반화 성능을 떨어뜨리도록 설계된 인식 불가능하고 경계가 있는 변형을 학습 데이터에 생성하기 위해 오토인코더를 사용하는 새로운 프레임워크를 제안한다. 다른 가상의 분류기와 함께 오토인코더를 동시에 학습시킴으로써, 이 방법은 다양한 모델, 포함하여 비신경망 모델까지도 포괄하는 다양한 아키텍처와 CIFAR-10 및 ImageNet 등의 데이터셋에서 높은 이동성(transferability)을 가지는 적대적 노이즈를 생성한다.

ABSTRACT

In this work, we consider one challenging training time attack by modifying training data with bounded perturbation, hoping to manipulate the behavior (both targeted or non-targeted) of any corresponding trained classifier during test time when facing clean samples. To achieve this, we proposed to use an auto-encoder-like network to generate the pertubation on the training data paired with one differentiable system acting as the imaginary victim classifier. The perturbation generator will learn to update its weights by watching the training procedure of the imaginary classifier in order to produce the most harmful and imperceivable noise which in turn will lead the lowest generalization power for the victim classifier. This can be formulated into a non-linear equality constrained optimization problem. Unlike GANs, solving such problem is computationally challenging, we then proposed a simple yet effective procedure to decouple the alternating updates for the two networks for stability. The method proposed in this paper can be easily extended to the label specific setting where the attacker can manipulate the predictions of the victim classifiers according to some predefined rules rather than only making wrong predictions. Experiments on various datasets including CIFAR-10 and a reduced version of ImageNet confirmed the effectiveness of the proposed method and empirical results showed that, such bounded perturbation have good transferability regardless of which classifier the victim is actually using on image data.

연구 동기 및 목표

  • 학습 중에 훈련 데이터에 경계가 있고 인식 불가능한 변형을 추가하여, 어떤 아키텍처이든 테스트 시기 동안 학습된 분류기의 일반화 갭을 최대화하는 방법을 개발하는 것.
  • 학습 단계에서의 데이터 오염을 통해 공격자가 피해자 분류기의 행동을 제어할 수 있도록 하여, 잘못된 분류 또는 특정 레이블 예측을 유도하는 것.
  • 생성된 적대적 노이즈가 딥 네ural 네트워크, 랜덤 포레스트, SVM 등 다양한 모델 아키텍처 간에 이동 가능하도록 보장하는 것.
  • 강화학습 기법에서 영감을 얻은 분리 최적화 절차를 통해 오토인코더와 가상의 피해자 분류기의 학습을 안정화하는 것.
  • 모델이 특정 타겟 클래스로 잘못 분류되도록 유도하는 데 특화된 공격으로 프레임워크를 확장하는 것.

제안 방법

  • 청소된 훈련 샘플 $ x $ 에 작은 경계가 있는 변형 $ g_{\xi}(x) $ 를 추가하여 적대적 훈련 데이터 $ x + g_{\xi}(x) $ 를 형성하기 위해 오토인코더 구조의 네트워크를 학습한다.
  • 가상의 피해자 분류기 $ f_{\theta} $ 는 미분 가능하며, 오토인코더와 함께 공동 최적화 절차를 통해 학습되며, 그 목표는 청소된 테스트 데이터에서 $ f_{\theta} $ 의 테스트 정확도를 최소화하는 것이다.
  • 학습 과정은 비선형 등식 제약 최적화 문제로 공식화되며, 오토인코더는 피해자 분류기의 일반화 성능을 최대한 해칠 수 있도록 노이즈를 생성하도록 학습된다.
  • 학습을 안정화하기 위해, 강화학습의 타겟 네트워크와 유사한 분리 메커니즘이 도입되며, 피해자 분류기는 오토인코더 학습 중에 의사 업데이트를 통해 발산을 방지한다.
  • 손실 함수를 수정하여 특정 타겟 클래스로의 잘못된 분류를 유도하도록 함으로써, 프레임워크를 레이블 특정 공격으로 확장한다. 이는 단순히 잘못된 예측을 유도하는 것 외에도 특정 타겟 클래스로의 오분류를 유도하도록 한다.
  • 방법은 VGG, ResNet, DenseNet 등의 다양한 아키텍처를 포함하여, SVM과 랜덤 포레스트 등의 비-DNN 모델까지 포함한 MNIST, CIFAR-10, 그리고 축소된 ImageNet 데이터셋에서 평가된다.

실험 결과

연구 질문

  • RQ1청결한 훈련 데이터에 경계가 있고 인식 불가능한 변형을 추가하면, 어떤 아키텍처이든 테스트 시기 동안 학습된 분류기의 일반화 성능이 심각하게 떨어지는가?
  • RQ2생성된 적대적 노이즈가 SVM과 랜덤 포레스트와 같은 비신경망 모델을 포함한 다양한 유형의 분류기 간에 얼마나 효과적으로 이동하는가?
  • RQ3이 프레임워크는 특정 사전 정의된 클래스로 분류를 유도하는 타겟 레이블 특정 공격으로 확장될 수 있는가?
  • RQ4제안된 분리된 학습 절차는 오토인코더와 가상의 피해자 분류기의 최적화를 안정화시키며, GAN 유사 학습에서 흔히 발생하는 불안정성 문제를 방지하는가?
  • RQ5모델은 얼마나 심각하게 적대적 노이즈에 과적합되는가? 그리고 이 과적합은 딥 네ural 네트워크의 선형성과 관련이 있는가?

주요 결과

  • 레이블 특정 공격이 아닌 경우, 오토인코더가 생성한 적대적 노이즈는 CIFAR-10에서 테스트 정확도를 근본적인 랜덤 수준(예: 0.25±0.04)으로 낮춘다. 이는 강력한 일반화 성능 저하를 시사한다.
  • 랜덤 포레스트나 SVM과 같은 비신경망 분류기에서 테스트한 결과, 적대적 데이터로 학습된 모델은 최소 1.48±0.21의 테스트 정확도를 기록하여 높은 이동성의 존재를 확인한다.
  • 레이블 특정 설정에서는 공격 성공률이 0.00에서 79.7±0.38로 상승하여, 이 방법이 타겟 오분류에 효과적임을 입증한다.
  • 적대적 데이터로 학습된 모델는 뚜렷한 일반화 갭을 보였으며, 노이즈가 가미된 데이터에서의 훈련 정확도가 테스트 정확도보다 훨씬 높게 나타나, 노이즈에 과적합된 것으로 나타났다.
  • 노이즈 자체에 대해 평가한 결과(즉, $ f_{\theta}(g_{\xi}(x)) $), MNIST에서는 95.15%, ImageNet에서는 93.00%, CIFAR-10에서는 72.98%의 정확도를 기록하여, 모델이 노이즈 패턴에 과적합됨을 확인한다.
  • VGG, ResNet, DenseNet 등의 다양한 아키텍처에서 CIFAR-10과 ImageNet에서 일관된 성능을 기록하였으며, 청소된 훈련과 비교해 테스트 정확도가 뚜렷이 떨어졌다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.