[논문 리뷰] Radioactive data: tracing through training
논문은 방사성 데이터와 훈련 데이터셋에 눈에 보이지 않는 흔적을 새겨 모델이 그 데이터를 이용해 학습되었음을 통계적으로 식별할 수 있게 하며, 데이터의 1%만 마킹되어도 p-값이 1e-4까지 낮아질 수 있다.
We want to detect whether a particular image dataset has been used to train a model. We propose a new technique, \emph{radioactive data}, that makes imperceptible changes to this dataset such that any model trained on it will bear an identifiable mark. The mark is robust to strong variations such as different architectures or optimization methods. Given a trained model, our technique detects the use of radioactive data and provides a level of confidence (p-value). Our experiments on large-scale benchmarks (Imagenet), using standard architectures (Resnet-18, VGG-16, Densenet-121) and training procedures, show that we can detect usage of radioactive data with high confidence (p<10^-4) even when only 1% of the data used to trained our model is radioactive. Our method is robust to data augmentation and the stochasticity of deep network optimization. As a result, it offers a much higher signal-to-noise ratio than data poisoning and backdoor methods.
연구 동기 및 목표
- 데이터셋이 모델 학습에 사용되었는지 통계적 보장과 함께 추적 가능하게 한다.
- 작업 성능을 보존하고 훈련 변동에 강인한 데이터 마킹 기법을 개발한다.
- 방사성 데이터 사용을 식별하기 위한 화이트박스와 블랙박스 탐지 방법을 모두 제공한다.
제안 방법
- 분류 계층 이전의 잠재 공간에서 클래스 특이적 추가 마크(데이터 동위원소)를 도입한다.
- 마크를 이미지 픽셀로 역전파하여 시각적으로 지각되지 않는 수정(PSNR 약 42 dB)을 생성한다.
- 화이트박스 설정에서 서로 다른 φ 네트워크로 학습할 때 선형 매핑 M과 회귀를 사용해 특징 추출기 부분공간을 정렬한다.
- 운반 방향 u와 학습된 분류기 사이의 코사인 유사성을 사용해 베타-불완전 분포를 통해 방사성 데이터 여부를 검사한다.
- 여러 클래스를 마킹할 때 Fisher 방법으로 클래스 간의 여러 p-값을 결합한다.
- 마킹된 샘플과 일반 샘플 간의 손실을 비교하거나 증류된 학생 모델을 통해 블랙박스 탐지를 제공한다.
실험 결과
연구 질문
- RQ1아키텍처 및 최적화 알고리즘 전반에 걸쳐 학습을 통해 지속되는 눈에 띄지 않는 변화로 데이터 세트를 마킹할 수 있는가?
- RQ2학습된 분류기(또는 잠재 공간)에 대한 통계적 검정이 높은 신뢰도로 마킹된 데이터의 존재를 드러내는가?
- RQ3데이터 증강, 아키텍처 전이, 그리고 처음부터의 학습에 대해 마킹 기법의 강건성은 어느 정도인가?
- RQ4주어진 p-값으로 방사성 데이터를 검출하기 위해 필요한 최소 마킹 데이터 비율은 얼마인가?
- RQ5탐지 가능성과 강건성 측면에서 이 기술은 백도어 및 데이터 독성 주입 방법과 어떻게 비교되는가?
주요 결과
- 훈련 데이터의 불과 1%만 마킹되어도 방사성 표식은 높은 신뢰도( p < 1e-4 )로 탐지될 수 있다.
- 탐지는 데이터 증강 및 아키텍처 간의 확률적 학습 절차에 대해 강건하며(ResNet-18, ResNet-50, VGG-16, DenseNet-121).
- 1%의 데이터를 마킹할 때 모델 정확도는 대략 ±0.1% 이내로 유지된다.
- 화이트박스 및 블랙박스 탐지가 가능하며, 화이트박스가 종종 더 강한 신호를 제공하고 센터-크롭 증강이 탐지 가능성을 높인다.
- 다른 데이터셋과 아키텍처로의 전이에서도 강한 탐지 신호가 지속되며, 예를 들어 Places205에 Imagenet 사전학습 표식으로 마킹하면 데이터의 10% 이상이 마킹될 때 탐지 가능성이 있다.
- 층별 제거 분석은 표식이 분류기를 운반 방향으로 정렬시키는 반면, 의미론적 방향은 여전히 영향력이 있어 정확도 손실이 제한적임을 설명한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.