Skip to main content
QUICK REVIEW

[논문 리뷰] Spectral Signatures in Backdoor Attacks

Brandon Tran, Jerry Li|arXiv (Cornell University)|2018. 11. 01.
Adversarial Robustness in Machine Learning참고 문헌 32인용 수 237
한 줄 요약

이 논문은 백도어 공격이 학습된 표현에서 탐지 가능한 스펙트럴 시그니처를 남기고, 강건한 통계(SVD)를 사용하여 중독된 학습 샘플을 식별하고 제거하여 CIFAR-10에서 거의 깨끗한 정확도를 회복한다는 것을 보여준다.

ABSTRACT

A recent line of work has uncovered a new form of data poisoning: so-called \emph{backdoor} attacks. These attacks are particularly dangerous because they do not affect a network's behavior on typical, benign data. Rather, the network only deviates from its expected output when triggered by a perturbation planted by an adversary. In this paper, we identify a new property of all known backdoor attacks, which we call \emph{spectral signatures}. This property allows us to utilize tools from robust statistics to thwart the attacks. We demonstrate the efficacy of these signatures in detecting and removing poisoned examples on real image sets and state of the art neural network architectures. We believe that understanding spectral signatures is a crucial first step towards designing ML systems secure against such backdoor attacks

연구 동기 및 목표

  • 동기: 백도어 공격은 악의적으로 변형된 입력에서만 잘못 분류를 유발하고 정상 테스트 정확도에는 영향을 주지 않는다.
  • 목표: 학습된 표현에 남겨진 백도어의 탐지 가능한 스펙트럼 시그니처를 식별한다.
  • 목표: 견고한 성능을 복원하기 위해 오염된 학습 데이터를 탐지하고 제거하는 방어를 개발한다.
  • 실제 이미지 데이터셋과 구조에서 스펙트럼 시그니처 기반 방어의 실용성을 입증한다.

제안 방법

  • 신경망을 학습시키고 입력당 학습된 표현을 추출한다.
  • 표현의 클래스별 공분산을 계산하고 SVD를 적용하여 이상치를 탐지한다.
  • 최대 특이 벡터를 통해 이상치 점수를 정의하고 오염 비율의 상위 1.5배에 해당하는 샘플을 제거한다.
  • 정리된 데이터셋으로 네트워크를 재학습하고 정상 테스트 셋과 백도어 테스트 셋에서 평가한다.
  • 오염된 포인트가 탐지 가능하도록 스펙트랄하게 분리 가능한 조건을 통한 이론적 직관을 제공한다.

실험 결과

연구 질문

  • RQ1학습된 표현의 스펙트럴 특성이 깨끗한 샘플과 백도어가 적용된 학습 예제를 구분할 수 있는가?
  • RQ2학습된 표현에 적용된 강건한 통계 도구가 중독된 입력을 신뢰성 있게 식별하고 제거하는가?
  • RQ3스펙트럼 시그니처 기반 방어가 아키텍처와 공격 구성에 걸쳐 효과적인가?
  • RQ4표현 공간에서 깨끗한 하위집단과 오염된 하위집단을 신뢰성 있게 분리하기 위한 조건은 무엇인가?

주요 결과

  • 백도어 공격은 학습된 표현의 공분산에 탐지 가능한 스펙트럴 시그니처를 남긴다.
  • 상위 특이 벡터와 이상치 점수를 사용하여 학습 데이터에서 중독된 샘플을 식별하고 제거할 수 있다.
  • CIFAR-10에서 불과 250개의 오염 샘플로도 백도어 테스트 입력의 90% 이상을 오분류하는 반면 정상 샘플은 높은 정확도를 유지한다.
  • 탐지된 오염 포인트를 제거하고 재학습한 후 백도어 데이터에 대한 오분류가 깨끗한 모델의 성능과 1% 이내로 감소한다.
  • 강건한 통계 기반의 스펙트럴 방식이 깨끗한 입력과 중독된 입력을 구분하는 데 더 약한 데이터 수준 통계보다 우수하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.