QUICK REVIEW

[논문 리뷰] Certified Defenses for Data Poisoning Attacks

Jacob Steinhardt, Pang Wei Koh|arXiv (Cornell University)|2017. 06. 09.

Adversarial Robustness in Machine Learning참고 문헌 50인용 수 83

한 줄 요약

본 논문은 이상치 제거에 이어 경험적 위험 최소화를 수행하는 방어 기법에 대해 worst-case 손실의 근사 상한을 도출함으로써 데이터 중독에 대한 방어를 인증하는 프레임워크를 제시하고, 이러한 상한을 거의 일치시키는 실용적인 공격을 제공한다.

ABSTRACT

Machine learning systems trained on user-provided data are susceptible to data poisoning attacks, whereby malicious users inject false training data with the aim of corrupting the learned model. While recent work has proposed a number of attacks and defenses, little is understood about the worst-case loss of a defense in the face of a determined attacker. We address this by constructing approximate upper bounds on the loss across a broad family of attacks, for defenders that first perform outlier removal followed by empirical risk minimization. Our approximation relies on two assumptions: (1) that the dataset is large enough for statistical concentration between train and test error to hold, and (2) that outliers within the clean (non-poisoned) data do not have a strong effect on the model. Our bound comes paired with a candidate attack that often nearly matches the upper bound, giving us a powerful tool for quickly assessing defenses on a given dataset. Empirically, we find that even under a simple defense, the MNIST-1-7 and Dogfish datasets are resilient to attack, while in contrast the IMDB sentiment dataset can be driven from 12% to 23% test error by adding only 3% poisoned data.

연구 동기 및 목표

데이터 중독 worst-case에 대해 방어의 견고성을 이해할 필요성을 제시한다.
sanitization 방어 기법 계열에 대한 worst-case 손실을 상한하는 프레임워크를 제안한다.
minimax 상한을 계산하고 후보 공격을 생성하는 효율적인 온라인 학습 방법을 개발한다.
고정적(데이터 독립적) 방어와 데이터 의존적 방어를 구분하여 취약성을 분석한다.
이미지 및 텍스트 데이터셋에서 프레임워크를 실증적으로 시연하여 데이터셋 의존적 강건성을 드러낸다.

제안 방법

마진 기반 손실과 원인적 데이터 중독 공격 모델을 가진 예측 작업을 고려한다.
가능 집합 F를 통해 이상치를 제거하고 남은 데이터로 학습하는 데이터 정화 방어를 사용한다.
학습 손실과 테스트 손실, 이웃 샘플 간의 관계에 관한 세 가지 근사를 사용하여 최대 공격 손실의 근사 상한을 도출한다.
온라인 학습을 적용하여 minimax 손실 M을 계산하고 후보 공격 집합 Dp를 생성한다.
데이터 의존적 방어로 확장하기 위해 Dp에 대한 분포로의 Relaxation을 적용하고 Relaxed 최댓값 문제를 해결한다.
두 가지 인스턴스화: oracle(참 클래스 중심점) 대 empirical 중심점, Sphere 및 Slab 방어를 통해 예시를 보인다.

실험 결과

연구 질문

RQ1데이터 중독 여부를 고려한 이상치 제거 후 경험적 위험 최소화를 수행하는 방어에서 가장 나쁜 경우의 테스트 손실은 얼마나 될까?
RQ2고정적 대 데이터 의존적 이상치 방어에 대해 엄밀한 상한을 계산하고 공격자 전략을 구성하는 방법은 무엇인가?
RQ3데이터셋 구조(차원성 및 특징의 관련성)가 중독 공격에 대한 방어 가능성에 어떤 영향을 미치는가?
RQ4오라클 기반의 강건성과 데이터 의존적 방어 간의 실무상의 차이는 무엇인가?
RQ5온라인 학습 기반 방법이 강건성을 인증하고 거의 최적의 중독 전략을 생성하는가?

주요 결과

Oracle sphere/slab 방어는 MNIST-1-7 및 Dogfish에서 최대 30%의 중독 데이터에도 불구하고 인증된 상한이 작고(예: 0.1 이하) 결과를 보여준다.
IMDB 감성 데이터는 동일한 방어 하에서도 단 3%의 중독 데이터로 테스트 오류를 12%에서 23%로 증가시킬 수 있어 데이터셋 의존성을 보여준다.
데이터 의존적 방어는 상당히 약해질 수 있으며, MNIST-1-7 및 Dogfish 공격은 경험적 중심점 방어에서 훨씬 더 커져 30% 중독에서 테스트 손실이 크게 증가한다.
소량의 중독 비율(≤5%)에서는 MNIST-1-7 및 Dogfish에서 강건성이 유지되지만 더 큰 중독은 이상치 제거를 우회하게 한다.
텍스트 데이터의 경우 IMDB에서 오라클 방어를 통과하더라도 취약성을 보이고, Enron에서도 무결성 제약 하에서 공격 가능성을 보인다.
minimax 프레임워크에서 파생된 공격 전략이 여러 실험에서 상한을 거의 추적하여 제안된 접근의 타당성을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.