Skip to main content
QUICK REVIEW

[논문 리뷰] Generative Poisoning Attack Method Against Neural Networks

Chaofei Yang, Qing Wu|arXiv (Cornell University)|2017. 03. 03.
Adversarial Robustness in Machine Learning참고 문헌 16인용 수 148
한 줄 요약

논문은 신경망의 정확도를 저하시킬 poisoned 입력을 생성하기 위한 생성적 방법을 제시하며, 직접 그래디언트 방법에 비해 데이터 중독 속도를 크게 향상시키고(최대 239.38× 더 빠름), MNIST와 CIFAR-10 실험 및 손실 기반 카운터메저를 다룬다.

ABSTRACT

Poisoning attack is identified as a severe security threat to machine learning algorithms. In many applications, for example, deep neural network (DNN) models collect public data as the inputs to perform re-training, where the input data can be poisoned. Although poisoning attack against support vector machines (SVM) has been extensively studied before, there is still very limited knowledge about how such attack can be implemented on neural networks (NN), especially DNNs. In this work, we first examine the possibility of applying traditional gradient-based method (named as the direct gradient method) to generate poisoned data against NNs by leveraging the gradient of the target model w.r.t. the normal data. We then propose a generative method to accelerate the generation rate of the poisoned data: an auto-encoder (generator) used to generate poisoned data is updated by a reward function of the loss, and the target NN model (discriminator) receives the poisoned data to calculate the loss w.r.t. the normal data. Our experiment results show that the generative method can speed up the poisoned data generation rate by up to 239.38x compared with the direct gradient method, with slightly lower model accuracy degradation. A countermeasure is also designed to detect such poisoning attack methods by checking the loss of the target model.

연구 동기 및 목표

  • 그래디언트 기반 방법을 사용한 신경망에 대한 오염 공격의 타당성을 조사한다.
  • 생성적(오토인코더 기반) 접근법을 개발하여 poisoned 데이터 생성을 가속한다.
  • 속도 및 모델 정확도 영향 측면에서 생성적 방법과 직접 그래디언트 공격을 비교한다.
  • 오버헤드가 낮은 손실 기반 대응책을 제안하여 중독 공격을 탐지한다.
  • MNIST 및 CIFAR-10 데이터셋에서 효과를 평가한다.

제안 방법

  • 오염된 데이터에 대한 그래디언트를 계산하고 경사 상승법으로 오염 입력을 업데이트하여 직접 그래디언트 중독을 분석한다.
  • 손실 차이에 의해 도출된 보상 함수로 업데이트되는 오염 데이터를 생성하는 생성기(오토인코더)를 도입한다.
  • 판별기(대상 NN)를 사용하여 손실과 기울기를 계산하고 생성기로 되돌려 보내며, 2차 도함수를 암시적으로 처리한다.
  • 직접 그래디언트 방법에 대한 알고리즘 1과 생성적 방법에 대한 알고리즘 2를 형식화하여 명시적 2차 도함수 계산을 줄인다.
  • 제너레이터를 훈련시키기 위해 연속 공격 간 손실 차이를 기반으로 한 보상 함수를 설계한다.
  • 입력으로 인해 발생한 손실이 임계치를 넘으면 경보를 트리거하는 손실 기반 대응책(알고리즘 3)을 제안한다.

실험 결과

연구 질문

  • RQ1그래디언트 기반 방법을 사용하여 신경망에 poisoning 공격을 효과적으로 실행할 수 있는가?
  • RQ2생성적(오토인코더 기반) 접근법이 직접 그래디언트 방법과 비교하여 독성 데이터 생성을 크게 가속시키는가?
  • RQ3MNIST와 CIFAR-10 같은 표준 데이터셋에서 공격이 모델 정확도에 어떤 영향을 미치는가?
  • RQ4낮은 오버헤드의 손실 기반 탐지기가 학습 중 독성 입력을 신뢰성 있게 식별할 수 있는가?

주요 결과

  • 생성적 방법은 CIFAR-10에서 poisoned 데이터 생성을 최대 239.38× 빠르게 하고 직접 그래디언트 방법에 비해 더 큰 네트워크로의 확장성을 향상시킨다.
  • MNIST에서 최적의 생성적 방법은 1000-그룹 설정에서 정확도 저하를 16.59%(직접 그래디언트는 8.84%)로 달성하지만 여전히 상당한 속도 향상을 보여준다.
  • CIFAR-10에서 생성적 방법은 데이터셋 크기가 커질수록 특히 낮은 시간 오버헤드로 유사하거나 더 나은 공격 효과를 보인다.
  • 직접 그래디언트 방법은 시간 소모적이고 입력 차원 및 모델 복잡도에 따라 확장되며, 생성적 방법이 이 병목 현상을 완화한다.
  • 손실 급등을 모니터링하여 독성을 감지하는 손실 기반 대응책; 과도한 경고는 저오버헤드 공격을 식별하기 위한 정확도 확인을 촉발할 수 있다.
  • 실험은 중독 공격이 대상 모델 성능을 저하시키고, 제너레이터 안내 방식이 더 큰 네트워크에 대해 확장성이 높음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.