Skip to main content
QUICK REVIEW

[논문 리뷰] Poisoning Attacks with Generative Adversarial Nets

Luis Muñoz-González, Bjarne Pfitzner|arXiv (Cornell University)|2019. 06. 18.
Adversarial Robustness in Machine Learning참고 문헌 28인용 수 39
한 줄 요약

본 논문은 pGAN을 소개한다. pGAN은 생성기, 판별기, 그리고 대상 분류기로 구성된 GAN 기반 프레임워크로, 탐지 가능성을 유지하면서 분류기를 악화시키는 오염 포인트를 생성한다.

ABSTRACT

Machine learning algorithms are vulnerable to poisoning attacks: An adversary can inject malicious points in the training dataset to influence the learning process and degrade the algorithm's performance. Optimal poisoning attacks have already been proposed to evaluate worst-case scenarios, modelling attacks as a bi-level optimization problem. Solving these problems is computationally demanding and has limited applicability for some models such as deep networks. In this paper we introduce a novel generative model to craft systematic poisoning attacks against machine learning classifiers generating adversarial training examples, i.e. samples that look like genuine data points but that degrade the classifier's accuracy when used for training. We propose a Generative Adversarial Net with three components: generator, discriminator, and the target classifier. This approach allows us to model naturally the detectability constrains that can be expected in realistic attacks and to identify the regions of the underlying data distribution that can be more vulnerable to data poisoning. Our experimental evaluation shows the effectiveness of our attack to compromise machine learning classifiers, including deep networks.

연구 동기 및 목표

  • 기계 학습에서 데이터 포이즈닝을 보안 위협으로 동기 부여하고 현실적인 공격 제약을 평가한다.
  • 생성적 적대 네트워크(GAN)을 사용하여 심층 네트워크에서도 작동하는 확장 가능한 오염 전략을 제안한다.
  • 현실적인 공격자 제약을 모델링하기 위해 탐지 가능성 제어를 포함하고 공격 효과성과 은밀성 간의trade-off를 연구한다.

제안 방법

  • 생성기, 판별기, 그리고 대상 분류기로 구성된 pGAN을 도입한다.
  • 생성기가 분류기에 대한 공격의 볼록 결합과 판별기로부터의 회피를 최대화하는 미니맥스 게임을 형식화한다.
  • 탐지 가능성과 효과성의 가중치를 결정하는 파라미터 alpha와 주입 포인트를 제어하는 오염 비율 lambda를 사용한다.
  • 오염 클래스 레이블에 조건화된 조건부 GAN과 유사한 설정에서 협력적 기울기 기반 업데이트로 학습한다.
  • 블랙박스 시나리오를 위한 대리 모델을 허용하고 표준 GAN 안정화 기법들(드롭아웃, 배치 정규화, 라벨 스무딩)을 도입한다.
  • 학습 역학에 대한 실용적 가이드라인을 제공하며, lambda의 역할과 미니맥스 목적함수의 사다리꼴 해를 위한 학습 동역학에 대한 실용적 가이드라인을 포함한다.

실험 결과

연구 질문

  • RQ1GAN 기반 프레임워크가 실제 데이터에 가까우면서도 분류기 성능을 저하시키는 오염 예시를 생성할 수 있는가?
  • RQ2탐지 가능성 제약(alpha를 통해) 이 오염의 효과성과 은밀성에 어떤 영향을 미치는가?
  • RQ3데이터셋과 모델에 걸쳐 오염 비율 lambda가 공격 성공에 미치는 영향은 무엇인가?
  • RQ4pGAN이 탐지 가능성을 과도하게 증가시키지 않으면서도 표적화되고 오류 특정 공격을 수행할 수 있는가?
  • RQ5탐지 가능성 제약하에 pGAN이 기존의 오염 방식과 어떻게 비교되는가?

주요 결과

  • pGAN은 MNIST와 Fashion-MNIST에 오염 포인트를 주입할 때 분류기 정확도를 저하시키는 오염 포인트를 생성할 수 있으며, 더 낮은 alpha 값에서 더 큰 효과를 보인다.
  • alpha가 높을수록 탐지가 더 어려워져 은밀성과 영향력 간의 trade-off를 보여준다.
  • 오염 포인트의 비율을 높이면 일반적으로 공격 효과가 증가하지만, 더 큰 데이터셋은 오염의 상대적 영향을 감소시킨다.
  • pGAN은 작은 오염 비율로 표적화되고 오류 특정 공격을 수행할 수 있다(예: 숫자 3을 5로 오분류하도록 증가).
  • 탐지 가능성 제약이 있는 라벨 플리핑 전략과 비교할 때, pGAN은 더 높은 공격 효과와 다른 오류 프로필(더 표적화되고 거짓 양성은 적음)을 달성한다.
  • 학습 데이터셋 크기가 커질수록 공격 효과는 감소하지만, 더 큰 모델에서도 표적 공격은 여전히 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.