QUICK REVIEW

[논문 리뷰] MetaPoison: Practical General-purpose Clean-label Data Poisoning

Wei Huang, Jonas Geiping|arXiv (Cornell University)|2020. 04. 01.

Adversarial Robustness in Machine Learning참고 문헌 37인용 수 81

한 줄 요약

메타포이즌은 처음-order, 메타러닝 기반의 포이징 방법으로, 깨끗한 라벨 포이즈를 설계해 처음부터 학습되었거나 미세 조정된 딥 네트워크를 오도하고, 모델 간 전이 및 심지어 블랙박스 API까지 전이될 수 있습니다. 매우 작은 포이즌 예산으로도 높은 공격 성공률을 달성하며, 새로운 포이징 스킴을 가능하게 합니다.

ABSTRACT

Data poisoning -- the process by which an attacker takes control of a model by making imperceptible changes to a subset of the training data -- is an emerging threat in the context of neural networks. Existing attacks for data poisoning neural networks have relied on hand-crafted heuristics, because solving the poisoning problem directly via bilevel optimization is generally thought of as intractable for deep models. We propose MetaPoison, a first-order method that approximates the bilevel problem via meta-learning and crafts poisons that fool neural networks. MetaPoison is effective: it outperforms previous clean-label poisoning methods by a large margin. MetaPoison is robust: poisoned data made for one model transfer to a variety of victim models with unknown training settings and architectures. MetaPoison is general-purpose, it works not only in fine-tuning scenarios, but also for end-to-end training from scratch, which till now hasn't been feasible for clean-label attacks with deep nets. MetaPoison can achieve arbitrary adversary goals -- like using poisons of one class to make a target image don the label of another arbitrarily chosen class. Finally, MetaPoison works in the real-world. We demonstrate for the first time successful data poisoning of models trained on the black-box Google Cloud AutoML API. Code and premade poisons are provided at https://github.com/wronnyhuang/metapoison

연구 동기 및 목표

깊은 신경망에 대해 실용적인 클린-레이블 데이터 포이징을 동기 부여하고 가능하게 한다.
메타러닝과 앙상블 대리 모델을 사용한 이층 포이징의 확장 가능한 근사치를 개발한다.
피해자가 처음부터 학습하고 미세 조정 시나리오에서의 효과를 입증한다.
아키텍처 간 전이성 및 학습 설정에 대한 강건성을 보여준다.
실세계 적용 가능성, 블랙박스 ML API를 포함하고 새로운 포이징 스킴을 탐구한다.

제안 방법

포이즈닝을 포이즈 데이터로 학습한 후의 적대적 손실을 최대화하는 제한된 이층 최적화 문제로 공식화한다.
포이즈가 L∞ 경계 내에서 시각적으로 눈에 띄지 않도록 ReColorAdv 지각 변화를 사용한다.
내부 훈련 목표를 작은 수의 SGD 스텝(K=2)을 풀어 외부 그래디언트를 추정하여 근사한다.
초기화에 따른 일반화를 향상시키기 위해 훈련 에폭에서 교대하는 부분적으로 학습된 대리 모델 앙상블을 통해 포이즈를 설계한다.
다중 에폭에 걸쳐 앙상블 모델의 그래디언트 정보를 사용하여 포이즈를 업데이트하고, 단일 모델 상태에 과적합되는 것을 피하기 위해 재초기화를 수행한다.
실용적인 계산 예산을 유지하고(예: 보고된 설정에서 포이즈당 5760개의 순전파/역전파) 최적화 중에 ε 및 εc 경계로 프로젝션을 적용한다.

실험 결과

연구 질문

RQ1메타포이즌이 미세 조정된 네트워크뿐만 아니라 처음부터 학습된 모델에 대해서도 효과적인 클린-레이블 포이즌을 설계할 수 있는가?
RQ2포이즌이 서로 다른 피해자 아키텍처, 초기화 및 학습 설정 간에 전이되는가?
RQ3구글 클라우드 AutoML과 같은 실세계 블랙박스 시스템 및 자가 은폐(Self-concealment), 다중 분류 포이징 등 대체 포이징 스킴에서 포이즌이 효과적인가?
RQ4아키텍처와 데이터셋 간의 포이즌 예산과 공격 성공률 사이의 trade-off는 무엇인가?
RQ5데이터 증강과 다양한 하이퍼파라미터에서 설계된 포이즌이 여전히 효과적인가?

주요 결과

메타포이즌은 예산이 작아도 높은 공격 성공률을 달성하며, 예를 들어 엔드-투-엔드 학습 네트워크에서 1% 포이즌 예산으로 40–90%의 성공을 달성한다.
ResNet20은 개 배-개 타겟에서 1% 포이즌 예산으로 72%의 공격 성공률을 달성한다.
포이즌 예산이 0.01%에 불과하더라도, 다른 아키텍처들 간의 엔드-투-엔드 학습에서도 성공률이 0이 아님으로 가능성이 있다.
지속적 평가에서 자가 은폐(Self-concealment)와 다중 클래스 포이즌 스킴은 이전에 테스트되지 않던 포이징 목표를 가능하게 한다.
포이즈가 적용된 CIFAR-10 모델은 Google Cloud AutoML Vision에 대해 포이즌 예산이 0.5%까지 낮아도 성공적으로 배포될 수 있으며 측정 가능한 성공(>15%)을 달성한다.
한 아키텍처에서 설계된 포이즌이 ConvNetBN, VGG13, ResNet20 등 다른 아키텍처로 전이되며 상당하지만 비대칭적인 효과를 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.