[논문 리뷰] SCALE-UP: An Efficient Black-box Input-level Backdoor Detection via Analyzing Scaled Prediction Consistency
SCALE-UP은 증폭된 입력의 스케일드 예측 일관성(SPC)을 측정하여 블랙박스 MLaaS 설정에서 백도어 입력을 탐지합니다. 데이터 없는 및 데이터 제한 시나리오에서 이론적 지지와 강력한 실험 결과와 함께.
Deep neural networks (DNNs) are vulnerable to backdoor attacks, where adversaries embed a hidden backdoor trigger during the training process for malicious prediction manipulation. These attacks pose great threats to the applications of DNNs under the real-world machine learning as a service (MLaaS) setting, where the deployed model is fully black-box while the users can only query and obtain its predictions. Currently, there are many existing defenses to reduce backdoor threats. However, almost all of them cannot be adopted in MLaaS scenarios since they require getting access to or even modifying the suspicious models. In this paper, we propose a simple yet effective black-box input-level backdoor detection, called SCALE-UP, which requires only the predicted labels to alleviate this problem. Specifically, we identify and filter malicious testing samples by analyzing their prediction consistency during the pixel-wise amplification process. Our defense is motivated by an intriguing observation (dubbed scaled prediction consistency) that the predictions of poisoned samples are significantly more consistent compared to those of benign ones when amplifying all pixel values. Besides, we also provide theoretical foundations to explain this phenomenon. Extensive experiments are conducted on benchmark datasets, verifying the effectiveness and efficiency of our defense and its resistance to potential adaptive attacks. Our codes are available at https://github.com/JunfengGo/SCALE-UP.
연구 동기 및 목표
- 독성 샘플과 정상 샘플을 구분하는 예측-일관성 현상(스케일드 예측 일관성)을 밝힌다.
- 스케일드 예측 일관성에 대한 이론적 설명을 제공한다.
- 데이터 없는 설정과 데이터 제한 설정에서 사용할 수 있는 블랙박스 입력 수준 백도어 탐지기인 SCALE-UP을 제안한다.
- 광범위한 실험을 통해 효과성과 효율성을 시연하고 적응 공격에 대한 저항성을 평가한다.
제안 방법
- attacked 모델에서 benign 및 poisoned 입력에 대한 픽셀 단위 증폭과 예측에 미치는 영향을 조사한다.
- scaled prediction consistency(SPC)를 증폭된 이미지들 중 원래 입력의 레이블과 일치하는 예측 레이블의 비율로 정의한다.
- 정해진 스케일링 세트를 사용하여 의심 입력에 대해 SPC를 계산하고 임계값으로 분류하는 데이터 없는 SCALE-UP를 개발한다.
- 작은 정상 샘플 세트에서 클래스별 평균/표준편차로 SPC를 정규화하여 데이터 제한 SCALE-UP로 확장하고 클래스 간 차이 효과를 줄인다.
- scaled prediction consistency를 정당화하기 위해 NTK에서 영감을 받은 분석을 통해 이론적 지원을 제공한다.
- CIFAR-10 및 Tiny ImageNet에서 여섯 가지 대표적 백도어 공격하에서 평가하고 다른 블랙박스 방어책과 비교한다.
실험 결과
연구 질문
- RQ1블랙박스 설정에서 픽셀 단위 증폭하에 예측이 어떻게 달라지는지에 따라 poisoned 샘플과 benign 샘플을 구분할 수 있는가?
- RQ2스케일드 예측 일관성이 모델 접속 없이도 강력하고 데이터 효율적인 백도어 탐지 신호를 제공하는가?
- RQ3데이터 없는 및 데이터 제한 시나리오에서 SCALE-UP을 효율성과 정확성을 유지하며 어떻게 적응시킬 수 있는가?
- RQ4고급 적응형 백도어 전략이 SPC 기반 탐지를 우회할 수 있는가?
주요 결과
| Attack | STRIP | ShrinkPad | DeepSweep | Frequency | Ours (data-free) | Ours (data-limited) | Average |
|---|---|---|---|---|---|---|---|
| BadNets | 0.989 | 0.951 | 0.967 | 0.891 | 0.971 | 0.971 | 0.895 |
| Label-Consistent | 0.941 | 0.957 | 0.921 | 0.889 | 0.947 | 0.954 | 0.915 |
| PhysicalBA | 0.971 | 0.631 | 0.946 | 0.881 | 0.969 | 0.970 | 0.896 |
| TUAP | 0.671 | 0.869 | 0.743 | 0.851 | 0.816 | 0.830 | 0.792 |
| WaNet | 0.475 | 0.531 | 0.506 | 0.461 | 0.918 | 0.925 | 0.672 |
| ISSBA | 0.498 | 0.513 | 0.729 | 0.497 | 0.945 | 0.945 | 0.614 |
| Average | 0.8?? | 0.733?? | 0.83?? | 0.657?? | 0.918?? | 0.945?? | N/A |
- 독성 샘플은 공격된 모델에서 benign 샘플보다 픽셀 단위 증폭에 대한 예측이 더 안정적이다(스케일드 예측 일관성).
- SCALE-UP은 여러 공격 및 데이터세트에서 높은 AUROC를 달성하며 확률 벡터를 필요로 하는 여러 베이스라인보다 우수하다.
- 데이터 없는 SCALE-UP은 defender가 임계값을 선택해 악의적 입력을 식별하고, 데이터 제한 SCALE-UP은 클래스별 정상 통계로 SPC를 정규화하여 정밀도를 향상시킨다.
- SCALE-UP은 패치 기반 및 비패치 기반 백도어에 여전히 효과적이며 적응 공격에 대한 저항성을 보인다(강한 정규화-적응 공격은 작은 무작위 노이즈를 추가하면 완화 가능).
- 추론 시간 오버헤드는 미미하며 SCALE-UP은 일반적으로 여러 베이스라인보다 빠르고 표준 추론보다는 약간 느리다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.