Skip to main content
QUICK REVIEW

[논문 리뷰] Transferable Clean-Label Poisoning Attacks on Deep Neural Nets

Chen Zhu, Wei Huang|arXiv (Cornell University)|2019. 05. 15.
Adversarial Robustness in Machine Learning참고 문헌 30인용 수 136
한 줄 요약

논문은 특징 공간에서 타깃을 둘러싸 오분류를 유도하는 전이 가능한 클린 레이블 중독 방법인 Convex Polytope Attack를 제시하며, 약 1%의 학습 데이터 오염으로도 50% 이상의 성공률을 달성한다.

ABSTRACT

Clean-label poisoning attacks inject innocuous looking (and "correctly" labeled) poison images into training data, causing a model to misclassify a targeted image after being trained on this data. We consider transferable poisoning attacks that succeed without access to the victim network's outputs, architecture, or (in some cases) training data. To achieve this, we propose a new "polytope attack" in which poison images are designed to surround the targeted image in feature space. We also demonstrate that using Dropout during poison creation helps to enhance transferability of this attack. We achieve transferable attack success rates of over 50% while poisoning only 1% of the training set.

연구 동기 및 목표

  • 웹에서 데이터를 수집할 때의 클린-레이블 데이터 중독에 대한 보안 위험 강조.
  • 출력값이나 아키텍처에 접근 없이 알려지지 않은 희생 네트워크에 전이 가능한 모델-무관 중독 전략을 개발.
  • 특징 공간에서 볼록 폴리토프를 사용해 공격 전이성 향상.
  • Ensemble을 시뮬레이션하기 위해 Poisson 중단(Dropout)을 사용해 전이성을 향상.
  • 공격의 다층 및 엔드 투 엔드 학습 시나리오에서의 효과 탐색

제안 방법

  • 피해자의 출력이나 매개변수에 대한 접근 없이 위협 모델 정의; 공격자가 유사한 분포에서 대체 모델을 학습할 수 있다고 가정.
  • Convex Polytope Attack를 제안하여 대상의 특징 벡터가 대체 모델 전반의 독성 특징의 볼록 껍질 내부에 놓이도록 강제.
  • perturbation 크기에 대한 제약을 가진 타깃 특징과 독성 특징의 볼록 결합 간의 거리를 최소화하는 최적화를 형식화.
  • 계수에 대해 순방향-역방향 분리(Forward-Backward Splitting)로 교대하는 비볼록 문제를 해결하고 독성 이미지에 대한 그래디언트 스텝으로 해결.
  • 전이성을 향상시키기 위해 (a) 중단(Dropout) 적용으로 앙상블을 시뮬레이션하고 (b) 다층 네트워크에서 볼록 폴리토프 목적을 강제하여 전이성 강화

실험 결과

연구 질문

  • RQ1피해자 모델 접근 없이 제작된 클린-레이블 독성은 보이지 않는(블랙박스) 딥 이미지 분류기에 전이되는가?
  • RQ2볼록 폴리토프 기반 목적이 특징 충돌(feature collision) 기반 중독에 비해 전이성을 개선하는가?
  • RQ3다층을 공격하는 경우 엔드투엔드 학습된 희생자에서 성공률에 어떤 영향을 미치는가?
  • RQ4Poison 제작 과정에서 Dropout을 사용하면 중독이 전이되는 네트워크의 범위를 확장하는가?
  • RQ5피해자의 학습 분포가 공격자의 대체 모델 분포와 얼마나 유사한가에 따라 공격 성공에 어떤 영향이 있는가?

주요 결과

  • Convex Polytope Attack는 전이 학습 시 Feature Collision보다 더 높은 전이성을 달성하며, 성공률이 보통 0.5에 근접하거나 그 이상인 경우가 많다.
  • 학습 데이터의 1%만 중독해도 전이 가능한 표적 오분류를 얻을 수 있다.
  • 중단(Dropout)을 도입한 중독 제작은 엔앙블을 효과적으로 샘플링해 전이성을 향상시킨다.
  • 다층 폴리토프 공격은 엔드투엔드 학습 컨텍스트에서 마지막 계층 공격보다 성공률을 높인다.
  • 피해자 모델의 일반화와 대체 모델의 데이터 분포에 따라 공격의 효과가 달라진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.