QUICK REVIEW

[논문 리뷰] Neural Trojans

Yuntao Liu, Yang Xie|arXiv (Cornell University)|2017. 10. 03.

Adversarial Robustness in Machine Learning참고 문헌 20인용 수 27

한 줄 요약

이 논문은 신뢰할 수 없는 공급업체에 의해 사전 훈련된 신경망 지적재산(IP)에 임베딩된 숨겨진 백도어인 신경 토지안의 위협을 조사한다. 세 가지 완화 기법을 제안한다: 입력 이상 탐지(12.2%의 오진률을 동반한 99.8% 트리거 탐지), 재훈련(재구성 가능성이 필요하며 94.1%의 트리거 방지), 입력 전처리(모델에 대한 가정이 필요 없이 90.2%의 트리거 중화), 이 모든 기법은 백도어 공격에 대응하는 데 효과적임을 입증함.

ABSTRACT

While neural networks demonstrate stronger capabilities in pattern recognition nowadays, they are also becoming larger and deeper. As a result, the effort needed to train a network also increases dramatically. In many cases, it is more practical to use a neural network intellectual property (IP) that an IP vendor has already trained. As we do not know about the training process, there can be security threats in the neural IP: the IP vendor (attacker) may embed hidden malicious functionality, i.e. neural Trojans, into the neural IP. We show that this is an effective attack and provide three mitigation techniques: input anomaly detection, re-training, and input preprocessing. All the techniques are proven effective. The input anomaly detection approach is able to detect 99.8% of Trojan triggers although with 12.2% false positive. The re-training approach is able to prevent 94.1% of Trojan triggers from triggering the Trojan although it requires that the neural IP be reconfigurable. In the input preprocessing approach, 90.2% of Trojan triggers are rendered ineffective and no assumption about the neural IP is needed.

연구 동기 및 목표

신뢰할 수 없는 공급업체로부터 유출된 백도어가 있는 신경망 IP의 보안 위험을 조사하기 위해.
사전 훈련된 모델에 숨겨진 악성 기능(신경 토지안)을 통합하는 것의 가능성과 영향을 규명하기 위해.
학습 데이터나 아키텍처에 접근할 필요 없이 실용적인 공격 방어 기법을 개발하고 평가하기 위해.

제안 방법

입력 이방 탐지는 입력 패턴을 분석하여 정상 행동에서의 이탈 여부를 기반으로 트리거를 식별함.
재훈련은 깨끗한 데이터로 신경 IP를 미세 조정하여 트리거의 기능을 무력화함.
입력 전처리는 추론 이전에 입력을 수정하여 트리거를 무력화함. 이 기법은 모델에 대한 가정이 필요 없음.
세 기법은 실제 세계의 신경망 모델을 대상으로 평가되어 탐지 및 완화 성능을 분석함.
각 방법은 공격자가 모델의 훈련 과정을 제어하는 현실적인 위협 모델 하에서 테스트됨.

실험 결과

연구 질문

RQ1신뢰할 수 없는 공급업체에 의해 사전 훈련된 신경망 IP에 효과적으로 신경 토지안을 임베딩할 수 있는가?
RQ2입력 이상 탐지, 재훈련, 입력 전처리 기법이 트리거를 탐지하거나 중화하는 데 얼마나 효과적인가?
RQ3다양한 완화 전략 간에 탐지 정확도, 오진률, 모델 접근 요구 조건의 상호 간의 상충 관계는 어떠한가?

주요 결과

입력 이상 탐지는 99.8%의 트리거를 성공적으로 탐지하지만, 12.2%의 오진률을 보임.
재훈련은 94.1%의 트리거가 활성화되는 것을 방지하지만, 신경 IP가 재구성 가능해야 함.
입력 전처리 기법은 모델에 대한 가정이 전혀 필요 없이 90.2%의 트리거를 무력화함.
세 가지 완화 기법 모두 사전 훈련된 신경망에서의 백도어 공격을 중화하는 데 효과적임이 입증됨.
입력 전처리 기법은 모델의 가중치나 학습 데이터에 접근할 필요가 없기 때문에 특히 유리함.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.