QUICK REVIEW

[논문 리뷰] Just How Toxic is Data Poisoning? A Unified Benchmark for Backdoor and Data Poisoning Attacks

Avi Schwarzschild, Micah Goldblum|arXiv (Cornell University)|2020. 06. 22.

Adversarial Robustness in Machine Learning참고 문헌 42인용 수 56

한 줄 요약

본 논문은 이미지 분류기에 대한 백도어 및 트리거리스 데이터 중독 공격을 평가하기 위한 표준화된 벤치마크를 제안하고, 실험 설계와 학습 설정이 공격 효과에 얼마나 큰 영향을 미치는지 보여준다.

ABSTRACT

Data poisoning and backdoor attacks manipulate training data in order to cause models to fail during inference. A recent survey of industry practitioners found that data poisoning is the number one concern among threats ranging from model stealing to adversarial attacks. However, it remains unclear exactly how dangerous poisoning methods are and which ones are more effective considering that these methods, even ones with identical objectives, have not been tested in consistent or realistic settings. We observe that data poisoning and backdoor attacks are highly sensitive to variations in the testing setup. Moreover, we find that existing methods may not generalize to realistic settings. While these existing works serve as valuable prototypes for data poisoning, we apply rigorous tests to determine the extent to which we should fear them. In order to promote fair comparison in future work, we develop standardized benchmarks for data poisoning and backdoor attacks.

연구 동기 및 목표

데이터 중독 및 백도어 공격에 대한 공정하고 비교 가능한 평가를 촉진한다.
테스트 설정, 데이터셋 크기 및 학습 프로토콜이 공격 성공에 어떤 영향을 미치는지 파악한다.
재현 가능한 평가를 위한 표준화된 벤치마크와 공개 가능한 코드를 제공한다.

제안 방법

하나의 통합 프레임워크에서 트리거리스 및 백도어 중독 공격을 정의하고 비교한다.
데이터, 위협 모델, 학습 방식(전이 학습 대 처음부터 학습)을 표준화한다.
중독을 8/255 l-infinity 구 안에 머물도록 제약하고 화이트박스 및 블랙박스 설정 전반에서 평가한다.
실험당 무작위 타깃/기본 이미지 쌍과 100회의 실험으로 분산을 정량화한다.
최적화 알고리즘(SGD 대 Adam), 데이터 증가, 피해자 아키텍처가 공격 성공에 미치는 영향을 평가한다.
공정한 크로스-메서드 벤치마킹을 가능하게 하도록 사전 학습된 모델과 고정 평가 프로토콜을 제공한다.

실험 결과

연구 질문

RQ1현실적인 학습 설정과 벤치마크가 중독 공격의 관찰된 효율성에 어떻게 영향을 미치는가?
RQ2일반적으로 사용되는 포이즌 예산(데이터의 비율)이 다양한 데이터셋 크기와 아키텍처에서 공격 강도를 신뢰할 수 있게 예측하는가?
RQ3표준화된 벤치마크에서 전이 학습 대 처음부터 학습하는 규칙이 공격 성공에 어떤 영향을 미치는가?
RQ4데이터 증가, 최적화 알고리즘, 모델 아키텍처 등 어떤 요인이 데이터 중독에 대한 시스템의 취약성을 가장 크게 바꾸는가?
RQ5표준화된 평가 하에서 보고된 “깨끗한 라벨” 독살이 정말로 깨끗한가?

주요 결과

공격 효율성은 학습 설정과 데이터셋 맥락에 매우 민감하다.
데이터 증강이 포함된 SGD는 Adam 및 비증강 대비 공격 성공을 현저히 감소시킨다(예: 증강된 SGD 설정에서 FC와 CP가 각각 51.00%와 19.09%로 떨어짐).
피해자 아키텍처가 중요하다; 일부 공격은 ResNet-18에서 AlexNet 변형보다 훨씬 효과가 떨어진다.
일부 소위 ‘깨끗한 라벨’ 독살은 일반 과扰 반경에서 지각 가능한 아티팩트를 나타내며 ‘깨끗한’ 라벨 주장에 도전한다.
예산 비율만으로는 충분치 않다; 데이터셋 크기가 공격 효율에 근본적인 변화를 일으키며 공격 곡선이 메서드 간 교차할 수 있다.
블랙박스 전이 공격은 화이트박스 기준보다 현저히 낮은 성공률을 보이며(대개 <20%).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.