[논문 리뷰] Stronger Data Poisoning Attacks Break Data Sanitization Defenses
본 논문은 일반적인 데이터 정제 방어를 회피하고 단 3%의 오염 데이터로 테스트 정확도를 크게 저하시킬 수 있는 세 가지 조정된 데이터 오염 공격을 개발합니다. 이 공격들이 최근 이웃 기반 탐지, 학습 손실, SVD, 중심 거리 기반 이상 탐지에 대해서도 여전히 효과적임을 보여줍니다.
Machine learning models trained on data from the outside world can be corrupted by data poisoning attacks that inject malicious points into the models' training sets. A common defense against these attacks is data sanitization: first filter out anomalous training points before training the model. In this paper, we develop three attacks that can bypass a broad range of common data sanitization defenses, including anomaly detectors based on nearest neighbors, training loss, and singular-value decomposition. By adding just 3% poisoned data, our attacks successfully increase test error on the Enron spam detection dataset from 3% to 24% and on the IMDB sentiment classification dataset from 12% to 29%. In contrast, existing attacks which do not explicitly account for these data sanitization defenses are defeated by them. Our attacks are based on two ideas: (i) we coordinate our attacks to place poisoned points near one another, and (ii) we formulate each attack as a constrained optimization problem, with constraints designed to ensure that the poisoned points evade detection. As this optimization involves solving an expensive bilevel problem, our three attacks correspond to different ways of approximating this problem, based on influence functions; minimax duality; and the Karush-Kuhn-Tucker (KKT) conditions. Our results underscore the need to develop more robust defenses against data poisoning attacks.
연구 동기 및 목표
- 방어자가 이상치를 걸러내기 위해 데이터 정화를 사용할 때 데이터 중독의 위험성을 동기 부여하고 형식화한다.
- 조정된 중독이 다양한 이상 탐지기를 회피하고 모델 성능을 저하시킬 수 있음을 보인다.
- 방어를 우회하기 위해 집중화(concentration), 제약 최적화, 그리고 디코이 파라미터를 활용하는 세 가지 공격 프레임워크를 제안한다.
- 현실적인 방어 가정 하에서 실제 데이터셋에 대해 상당한 테스트 오류 증가를 보여준다.
제안 방법
- 오염된 포인트가 방어자의 이상 탐지기를 회피해야 하는 제약 최적화 문제로 공격을 수식화한다.
- 민감한 이상 탐지기를 무력화하면서도 효과를 유지하기 위해 오염 포인트를 몇 개의 위치에 집중시킨다.
- 데이터 중독에 필요한 이중 최적화를 근사하기 위해 Influence, KKT, Minimax의 세 가지 공격 변형을 개발한다.
- 공격자의 최적화를 방어자의 학습된 모델과 분리하도록 디코이 파라미터를 사용하여 효율적인 공격 계산을 가능하게 한다.
- 정수-valued 입력 도메인을 다루고 공격 집중화를 보장하기 위해 무작위 반올림(randomized rounding) 접근법을 제공한다.
- 오염 집합과 이상 탐지기 파라미터를 모두 다듬기 위한 반복적 최적화를 제안한다.
실험 결과
연구 질문
- RQ1공격자들이 다수의 포인트를 조정할 때 데이터 정제 방어가 중독 데이터를 신뢰성 있게 탐지하고 폐기할 수 있는가?
- RQ2k-NN, L2, slab, loss-based, SVD 방어 등 다양한 이상 탐지기를 회피하게 하는 어떤 공격 전략이 있는가?
- RQ3방어 제약 하에서 표준 데이터셋에서 테스트 오차를 늘리는 조정된 중독 공격의 효과성은 어느 정도인가?
- RQ4농도화(concentration) 및 디코이 파라미터 최적화와 같은 공격 기법이 컨벡스 손실 하에서 이진/다중 클래스 분류기 모두에 일반화되는가?
- RQ5현실적인 데이터셋에서 이중 최적화 기반 중독을 계산 가능하게 하는 어떤 계산 전략이 있는가?
주요 결과
- 오염 데이터 3%에도 불구하고 정화가 있어도 Enron 스팸에서 테스트 오차를 3%에서 24%로 증가시킬 수 있다.
- IMDB 감정 분석에서 3% 오염 데이터로도 정화 하에 테스트 오차를 12%에서 29%로 증가시킬 수 있다.
- 집중화된 중독 포인트가 몇몇 위치에 군집화되어 매우 민감한 이상 탐지기를 회피한다.
- 일부 이진 SVM이나 로지스틱 회귀에서 두 포인트의 오염으로도 합리적인 공격을 달성할 수 있다(컨벡스 손실 하에서).
- 세 가지 공격 형식(Infulence, KKT, Minimax)이 계산 효율성과 방어 회피를 균형 있게 달성한다.
- 정규화는 작게 오염된 하위집합에 대한 적합도를 감소시켜 방어자의 취약성을 역설적으로 증가시킬 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.