Skip to main content
QUICK REVIEW

[논문 리뷰] Neural Trojans

Yuntao Liu, Yang Xie|arXiv (Cornell University)|2017. 10. 03.
Adversarial Robustness in Machine Learning참고 문헌 20인용 수 27
한 줄 요약

이 논문은 신뢰할 수 없는 공급업체에 의해 사전 훈련된 신경망 지적재산(IP)에 임베딩된 숨겨진 백도어인 신경 토지안의 위협을 조사한다. 세 가지 완화 기법을 제안한다: 입력 이상 탐지(12.2%의 오진률을 동반한 99.8% 트리거 탐지), 재훈련(재구성 가능성이 필요하며 94.1%의 트리거 방지), 입력 전처리(모델에 대한 가정이 필요 없이 90.2%의 트리거 중화), 이 모든 기법은 백도어 공격에 대응하는 데 효과적임을 입증함.

ABSTRACT

While neural networks demonstrate stronger capabilities in pattern recognition nowadays, they are also becoming larger and deeper. As a result, the effort needed to train a network also increases dramatically. In many cases, it is more practical to use a neural network intellectual property (IP) that an IP vendor has already trained. As we do not know about the training process, there can be security threats in the neural IP: the IP vendor (attacker) may embed hidden malicious functionality, i.e. neural Trojans, into the neural IP. We show that this is an effective attack and provide three mitigation techniques: input anomaly detection, re-training, and input preprocessing. All the techniques are proven effective. The input anomaly detection approach is able to detect 99.8% of Trojan triggers although with 12.2% false positive. The re-training approach is able to prevent 94.1% of Trojan triggers from triggering the Trojan although it requires that the neural IP be reconfigurable. In the input preprocessing approach, 90.2% of Trojan triggers are rendered ineffective and no assumption about the neural IP is needed.

연구 동기 및 목표

  • 신뢰할 수 없는 공급업체로부터 유출된 백도어가 있는 신경망 IP의 보안 위험을 조사하기 위해.
  • 사전 훈련된 모델에 숨겨진 악성 기능(신경 토지안)을 통합하는 것의 가능성과 영향을 규명하기 위해.
  • 학습 데이터나 아키텍처에 접근할 필요 없이 실용적인 공격 방어 기법을 개발하고 평가하기 위해.

제안 방법

  • 입력 이방 탐지는 입력 패턴을 분석하여 정상 행동에서의 이탈 여부를 기반으로 트리거를 식별함.
  • 재훈련은 깨끗한 데이터로 신경 IP를 미세 조정하여 트리거의 기능을 무력화함.
  • 입력 전처리는 추론 이전에 입력을 수정하여 트리거를 무력화함. 이 기법은 모델에 대한 가정이 필요 없음.
  • 세 기법은 실제 세계의 신경망 모델을 대상으로 평가되어 탐지 및 완화 성능을 분석함.
  • 각 방법은 공격자가 모델의 훈련 과정을 제어하는 현실적인 위협 모델 하에서 테스트됨.

실험 결과

연구 질문

  • RQ1신뢰할 수 없는 공급업체에 의해 사전 훈련된 신경망 IP에 효과적으로 신경 토지안을 임베딩할 수 있는가?
  • RQ2입력 이상 탐지, 재훈련, 입력 전처리 기법이 트리거를 탐지하거나 중화하는 데 얼마나 효과적인가?
  • RQ3다양한 완화 전략 간에 탐지 정확도, 오진률, 모델 접근 요구 조건의 상호 간의 상충 관계는 어떠한가?

주요 결과

  • 입력 이상 탐지는 99.8%의 트리거를 성공적으로 탐지하지만, 12.2%의 오진률을 보임.
  • 재훈련은 94.1%의 트리거가 활성화되는 것을 방지하지만, 신경 IP가 재구성 가능해야 함.
  • 입력 전처리 기법은 모델에 대한 가정이 전혀 필요 없이 90.2%의 트리거를 무력화함.
  • 세 가지 완화 기법 모두 사전 훈련된 신경망에서의 백도어 공격을 중화하는 데 효과적임이 입증됨.
  • 입력 전처리 기법은 모델의 가중치나 학습 데이터에 접근할 필요가 없기 때문에 특히 유리함.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.