Skip to main content
QUICK REVIEW

[논문 리뷰] Blind Backdoors in Deep Learning Models

Eugene Bagdasaryan, Vitaly Shmatikov|arXiv (Cornell University)|2020. 05. 08.
Adversarial Robustness in Machine Learning참고 문헌 91인용 수 46
한 줄 요약

이 논문은 데이터, 모델, 또는 출력에 접근 권한 없이도 학습 중 손실 계산을 수정하여 백도어를 주입하는 블라인드 코드 포이징(backdoors)을 제시합니다. 이를 통해 시각 및 언어 작업 전반에 걸쳐 강력한 공격을 가능하게 하고 방어를 회피할 수 있습니다.

ABSTRACT

We investigate a new method for injecting backdoors into machine learning models, based on compromising the loss-value computation in the model-training code. We use it to demonstrate new classes of backdoors strictly more powerful than those in the prior literature: single-pixel and physical backdoors in ImageNet models, backdoors that switch the model to a covert, privacy-violating task, and backdoors that do not require inference-time input modifications. Our attack is blind: the attacker cannot modify the training data, nor observe the execution of his code, nor access the resulting model. The attack code creates poisoned training inputs "on the fly," as the model is training, and uses multi-objective optimization to achieve high accuracy on both the main and backdoor tasks. We show how a blind attack can evade any known defense and propose new ones.

연구 동기 및 목표

  • 새로운 백도어 벡터를 동기 부여하고 형식화한다: ML 파이프라인에서 손실 값 계산을 통한 코드 포이징.
  • 블라인드 공격자가 데이터/모델 접근 없이도 다목적 백도어를 주입할 수 있음을 보인다.
  • 단순 픽셀 트리거를 넘어서 의미 기반 및 추론 시점이 아닌 위협까지 확장된 백도어를 시연한다.
  • 방어책을 분석하고 보증된 강인성(certified robustness)과 신뢰된 계산 그래프를 포함한 대응책들을 제시한다.

제안 방법

  • 백도어를 다중 작업 학습으로 간주한다. 모델은 주 작업과 백도어 작업 모두를 만족시켜야 한다.
  • 공격 코드는 즉시 백도어 입력을 합성하고 MGDA를 사용하여 상충하는 목적을 균형 있게 맞추는 blind loss ellblind를 결합하는 것을 계산한다.
  • 런타임에 자동으로 작업 가중치를 결정하기 위해 Franke-Wolfe 최적화기를 사용하는 다중 그래디언트 하강 알고리즘(MGDA)을 사용한다.
  • 백도어 트리거는 픽셀 패턴, 단일 픽셀, 물리적 객체 또는 추상 의미 특징으로 구성될 수 있으며 추론 시점 입력 수정이 필요하지 않다.
  • 공격 오버헤드는 수렴에 근접한 시점에서만 공격하고 MGDA로 도출된 계수를 재사용하여 추가 패스를 최소화함으로써 관리된다.

실험 결과

연구 질문

  • RQ1블라인드 공격자가 학습 데이터, 코드 실행 출력, 또는 결과 모델에 접근하지 않고도 학습 중 손실 계산을 수정하여 백도어를 주입할 수 있는가?
  • RQ2블라인드 코드 포이징으로 달성할 수 있는 백도어의 범주는 무엇이며(예: 픽셀, 물리적, 의미 기반, 추론 시점이 아닌 트리거) 방어에 대해 얼마나 효과적인가?
  • RQ3백도어 주입을 다중 작업 학습으로 간주하고 MGDA를 사용하는 것이 주 작업 정확도와 백도어 기능 간의 균형에 어떤 영향을 미치는가?
  • RQ4블라인드 손실 수정의 실용적 오버헤드는 어느 정도이며 공격 효율성을 유지하면서 이를 어떻게 완화할 수 있는가?
  • RQ5블라인드 백도어에 대해 어떤 방어책이 여전히 효과적이며, 저자들이 제안하는 새로운 방어책은 무엇인가?

주요 결과

  • 블라인드 공격은 다양한 트리거와 작업 전반에 걸쳐 높은 백도어 정확도(99%)를 달성하면서도 주 작업 정확도를 상당 부분 유지할 수 있다.
  • ImageNet에서 전체 학습은 백도어 유무에 관계없이 65.3%의 주 작업 정확도를 보이며, 백도어는 트리거에 따라 주 작업 정확도를 약간 감소시켜 68.7–68.9%로 만들고 백도어 정확도는 약 99%에 도달한다.
  • MNIST 파생 작업(MultiMNIST)에서 여러 백도어를 적용해도 주 작업 정확도는 약 96%를 유지하고, 트리거가 있는 경우 백도어 작업은 약 95% 정확도(합산 또는 곱셈)로 달성된다.
  • NLP의 의미 기반 백도어(IMDb 감정 분석)은 주 작업 정확도 91%를 유지하고 입력 수정 없이 백도어 정확도는 약 98%에 도달한다.
  • MGDA 기반 균형 조정(자동 손실 계수 최적화)은 고정 계수나 배치 포이징보다 백도어 성공률과 주 작업 성능이 더 높게 나타난다(예: MGDA: 96.04 주, 95.47 곱, 95.17 합).
  • 추가 순전파/역전파로 인한 학습 시간 및 메모리 사용 증가가 있지만 수렴(target convergence)을 노리고 계수 재활용, 동적 수렴 탐지로 오버헤드를 완화할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.