Skip to main content
QUICK REVIEW

[논문 리뷰] MetaPoison: Practical General-purpose Clean-label Data Poisoning

Wei Huang, Jonas Geiping|arXiv (Cornell University)|2020. 04. 01.
Adversarial Robustness in Machine Learning참고 문헌 37인용 수 81
한 줄 요약

메타포이즌은 처음-order, 메타러닝 기반의 포이징 방법으로, 깨끗한 라벨 포이즈를 설계해 처음부터 학습되었거나 미세 조정된 딥 네트워크를 오도하고, 모델 간 전이 및 심지어 블랙박스 API까지 전이될 수 있습니다. 매우 작은 포이즌 예산으로도 높은 공격 성공률을 달성하며, 새로운 포이징 스킴을 가능하게 합니다.

ABSTRACT

Data poisoning -- the process by which an attacker takes control of a model by making imperceptible changes to a subset of the training data -- is an emerging threat in the context of neural networks. Existing attacks for data poisoning neural networks have relied on hand-crafted heuristics, because solving the poisoning problem directly via bilevel optimization is generally thought of as intractable for deep models. We propose MetaPoison, a first-order method that approximates the bilevel problem via meta-learning and crafts poisons that fool neural networks. MetaPoison is effective: it outperforms previous clean-label poisoning methods by a large margin. MetaPoison is robust: poisoned data made for one model transfer to a variety of victim models with unknown training settings and architectures. MetaPoison is general-purpose, it works not only in fine-tuning scenarios, but also for end-to-end training from scratch, which till now hasn't been feasible for clean-label attacks with deep nets. MetaPoison can achieve arbitrary adversary goals -- like using poisons of one class to make a target image don the label of another arbitrarily chosen class. Finally, MetaPoison works in the real-world. We demonstrate for the first time successful data poisoning of models trained on the black-box Google Cloud AutoML API. Code and premade poisons are provided at https://github.com/wronnyhuang/metapoison

연구 동기 및 목표

  • 깊은 신경망에 대해 실용적인 클린-레이블 데이터 포이징을 동기 부여하고 가능하게 한다.
  • 메타러닝과 앙상블 대리 모델을 사용한 이층 포이징의 확장 가능한 근사치를 개발한다.
  • 피해자가 처음부터 학습하고 미세 조정 시나리오에서의 효과를 입증한다.
  • 아키텍처 간 전이성 및 학습 설정에 대한 강건성을 보여준다.
  • 실세계 적용 가능성, 블랙박스 ML API를 포함하고 새로운 포이징 스킴을 탐구한다.

제안 방법

  • 포이즈닝을 포이즈 데이터로 학습한 후의 적대적 손실을 최대화하는 제한된 이층 최적화 문제로 공식화한다.
  • 포이즈가 L∞ 경계 내에서 시각적으로 눈에 띄지 않도록 ReColorAdv 지각 변화를 사용한다.
  • 내부 훈련 목표를 작은 수의 SGD 스텝(K=2)을 풀어 외부 그래디언트를 추정하여 근사한다.
  • 초기화에 따른 일반화를 향상시키기 위해 훈련 에폭에서 교대하는 부분적으로 학습된 대리 모델 앙상블을 통해 포이즈를 설계한다.
  • 다중 에폭에 걸쳐 앙상블 모델의 그래디언트 정보를 사용하여 포이즈를 업데이트하고, 단일 모델 상태에 과적합되는 것을 피하기 위해 재초기화를 수행한다.
  • 실용적인 계산 예산을 유지하고(예: 보고된 설정에서 포이즈당 5760개의 순전파/역전파) 최적화 중에 ε 및 εc 경계로 프로젝션을 적용한다.

실험 결과

연구 질문

  • RQ1메타포이즌이 미세 조정된 네트워크뿐만 아니라 처음부터 학습된 모델에 대해서도 효과적인 클린-레이블 포이즌을 설계할 수 있는가?
  • RQ2포이즌이 서로 다른 피해자 아키텍처, 초기화 및 학습 설정 간에 전이되는가?
  • RQ3구글 클라우드 AutoML과 같은 실세계 블랙박스 시스템 및 자가 은폐(Self-concealment), 다중 분류 포이징 등 대체 포이징 스킴에서 포이즌이 효과적인가?
  • RQ4아키텍처와 데이터셋 간의 포이즌 예산과 공격 성공률 사이의 trade-off는 무엇인가?
  • RQ5데이터 증강과 다양한 하이퍼파라미터에서 설계된 포이즌이 여전히 효과적인가?

주요 결과

  • 메타포이즌은 예산이 작아도 높은 공격 성공률을 달성하며, 예를 들어 엔드-투-엔드 학습 네트워크에서 1% 포이즌 예산으로 40–90%의 성공을 달성한다.
  • ResNet20은 개 배-개 타겟에서 1% 포이즌 예산으로 72%의 공격 성공률을 달성한다.
  • 포이즌 예산이 0.01%에 불과하더라도, 다른 아키텍처들 간의 엔드-투-엔드 학습에서도 성공률이 0이 아님으로 가능성이 있다.
  • 지속적 평가에서 자가 은폐(Self-concealment)와 다중 클래스 포이즌 스킴은 이전에 테스트되지 않던 포이징 목표를 가능하게 한다.
  • 포이즈가 적용된 CIFAR-10 모델은 Google Cloud AutoML Vision에 대해 포이즌 예산이 0.5%까지 낮아도 성공적으로 배포될 수 있으며 측정 가능한 성공(>15%)을 달성한다.
  • 한 아키텍처에서 설계된 포이즌이 ConvNetBN, VGG13, ResNet20 등 다른 아키텍처로 전이되며 상당하지만 비대칭적인 효과를 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.