QUICK REVIEW

[논문 리뷰] Sleeper Agent: Scalable Hidden Trigger Backdoors for Neural Networks Trained from Scratch

Hossein Souri, Liam Fowl|arXiv (Cornell University)|2021. 06. 16.

Adversarial Robustness in Machine Learning인용 수 34

한 줄 요약

Sleeper Agent는 처음부터 학습된 신경망에서 작동하는 확장 가능한 숨겨진 트리거 백도어 공격을 제시합니다. 그 핵심은 그래디언트 정렬, 데이터 선택, 그리고 적응적 재학습을 이용하며, 블랙박스 설정에서도, ImageNet과 같은 대규모 데이터셋에서도 효과적입니다.

ABSTRACT

As the curation of data for machine learning becomes increasingly automated, dataset tampering is a mounting threat. Backdoor attackers tamper with training data to embed a vulnerability in models that are trained on that data. This vulnerability is then activated at inference time by placing a "trigger" into the model's input. Typical backdoor attacks insert the trigger directly into the training data, although the presence of such an attack may be visible upon inspection. In contrast, the Hidden Trigger Backdoor Attack achieves poisoning without placing a trigger into the training data at all. However, this hidden trigger attack is ineffective at poisoning neural networks trained from scratch. We develop a new hidden trigger attack, Sleeper Agent, which employs gradient matching, data selection, and target model re-training during the crafting process. Sleeper Agent is the first hidden trigger backdoor attack to be effective against neural networks trained from scratch. We demonstrate its effectiveness on ImageNet and in black-box settings. Our implementation code can be found at https://github.com/hsouri/Sleeper-Agent.

연구 동기 및 목표

자동화된 데이터 수집이 확대됨에 따라 데이터 선별 위협으로부터의 방어를 촉진한다.
피해 모델이 처음부터 학습된 경우에도 효과적으로 남아 있는 숨겨진 트리거 백도어 공격을 개발한다.
블랙박스 설정과 다양한 아키텍처 및 데이터셋에 걸친 강건성을 보여준다.
그래디언트 정렬, 표적 데이터 선택, 주기적인 재학습이 공격 성공을 높이는 방법을 보여준다.

제안 방법

트리거 패치 p를 가진 l_infty 제약 하의 이층 중독(오염) 목적함수를 형식화한다.
학습 및 적대적 그래디언트를 정렬하여 내부 최적화를 근사하기 위해 그래디언트 정렬을 사용한다(식 4).
그래디언트 노름으로 영향력이 큰 중독을 선택하고, 필요 시 중독 제작 중 모델 재학습을 수행한다.
대리 모델이나 앙상블에서 중독을 제작하여 알려지지 않은 피해 아키텍처로의 블랙박스 전달을 가능하게 한다.
훈련 데이터의 아주 작은 부분 M만을 교란하는 패치 무관 데이터 중독을 구현한다.
안정성을 높이기 위해 재학습 단계와 미분 가능한 데이터 증강으로 평가한다.

실험 결과

연구 질문

RQ1현실적인 위협 모델 하에서 처음부터 학습된 네트워크에 숨겨진 트리거 백도어를 신뢰성 있게 주입할 수 있는가?
RQ2그래디언트 정렬, 데이터 선택, 재학습이 블랙박스 및 앙상블 설정에서 중독 효과에 어떻게 영향을 미치는가?
RQ3표준 벤치마크(CIFAR-10, ImageNet)에서 Sleeper Agent의 비교 강점과 방어책은 무엇인가?

주요 결과

Sleeper Agent는 ResNet-18에서 1% 중독 예산으로 CIFAR-10에서 85.27%의 공격 성공률을 포함하여 다양한 아키텍처와 데이터셋에서 높은 공격 성공을 달성한다.
CIFAR-10에서 데이터의 1%로 중독하면 최대 85.27%의 공격 성공률을 얻고 패치가 있을 때 표적 오분류를 유도한다.
ImageNet에서 0.05% 중독 예산으로 ResNet-18과 MobileNet-V2의 공격 성공률은 각각 44.00%와 41.00%이다.
앙상블(동일 아키텍처의 다중 사본)은 전달성 및 공격 성공을 높이며, 예를 들어 S=4, T=4는 CIFAR-10에서 88.45%에 도달한다.
블랙박스 전달에서 Sleeper Agent는 다양한 아키텍처에 걸쳐 효과적으로 작동하며 특정 앙상블 구성에서 평균 58.44%를 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.