Skip to main content
QUICK REVIEW

[논문 리뷰] Detection of Adversarial Training Examples in Poisoning Attacks through Anomaly Detection

Andrea Paudice, Luis Muñoz-González|arXiv (Cornell University)|2018. 02. 08.
Anomaly Detection Techniques and Applications참고 문헌 28인용 수 112
한 줄 요약

이 논문은 선형 분류기에 대한 적대적 오염 예제를 탐지하기 위해 사전 필터링된 학습 세트에서 이상치 탐지를 사용하는 것을 제안하고, 최적 오염 공격에 대한 효과를 평가한다.

ABSTRACT

Machine learning has become an important component for many systems and applications including computer vision, spam filtering, malware and network intrusion detection, among others. Despite the capabilities of machine learning algorithms to extract valuable information from data and produce accurate predictions, it has been shown that these algorithms are vulnerable to attacks. Data poisoning is one of the most relevant security threats against machine learning systems, where attackers can subvert the learning process by injecting malicious samples in the training data. Recent work in adversarial machine learning has shown that the so-called optimal attack strategies can successfully poison linear classifiers, degrading the performance of the system dramatically after compromising a small fraction of the training dataset. In this paper we propose a defence mechanism to mitigate the effect of these optimal poisoning attacks based on outlier detection. We show empirically that the adversarial examples generated by these attack strategies are quite different from genuine points, as no detectability constrains are considered to craft the attack. Hence, they can be detected with an appropriate pre-filtering of the training dataset.

연구 동기 및 목표

  • 머신러닝 시스템에서 데이터 중독의 위협과 그것이 성능에 미치는 영향을 동기 부여한다.
  • 학습 파이프라인 전반에 걸쳐 이상치 탐지를 통해 적대적 오염 포인트를 탐지하는 방어책을 제안한다.
  • 오염 분수에 대한 사전 지식이 필요하지 않고 계산적으로 효율적이며 알고리즘에 구애받지 않는 완화 전략을 제공한다.
  • 합성 데이터와 실제 데이터 세트에서 고차원 시나리오를 포함해 접근법을 평가하고 최적 및 제약 공격과 비교한다.

제안 방법

  • 공격자가 검증 목적을 최대화하도록 오염 포인트를 최적화하는 이층 최적화 문제로 오염을 형식화한다.
  • Lasso 계열의 선형 분류기에 대한 최적 오염 공격을 명시적 기울기 기반 업데이트와 KKT 조건을 통한 암시적 미분으로 기술한다.
  • 재학습 전에 오염 포인트를 식별하고 필터링하기 위해 작은 신뢰된 부분집합에서 거리 기반 이상치 탐지를 적용하는 방어책을 제안한다.
  • 재학습 중 제거할 샘플을 결정하기 위해 클래스별 임계값을 가진 이진 이상치 탐지기를 사용한다.
  • 차원의 저주와 탐지기를 훈련하기 위한 신뢰된 데이터의 필요성과 같은 실용적 고려사항을 논의한다.

실험 결과

연구 질문

  • RQ1거리 기반 이상치 탐지가 중毒 공격 하에 훈련 데이터 세트에 주입된 적대적 학습 예제를 효과적으로 식별할 수 있는가?
  • RQ2다양한 데이터 환경에서(예: 샘플 수가 적고 특징 수가 많은 경우) 제안된 선별 전(pre-filtering) 접근법이 선형 분류기에 대한 최적의 오염 전략의 영향을 어떻게 바꾸는가?

주요 결과

  • 이상치 탐지를 통해 적대적 학습 포인트를 사전 필터링하여 선형 분류기에 대한 최적의 오염 전략의 영향을 완화할 수 있다.
  • 이 방어는 계산적으로 효율적이며 사전에 오염 분수의 지식을 필요로 하지 않는다.
  • 레이블 플리핑 유형의 공격은 제안된 이상치 탐지기로 최적의 오염 전략보다 탐지가 더 어렵다.
  • 학습 포인트 수가 특징 수와 비교될 정도로 많아도 이 접근법은 여전히 효과적이다.
  • 방어는 기본 학습 알고리즘에 무관하며 대규모 데이터세트에 적용 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.