Skip to main content
QUICK REVIEW

[논문 리뷰] ConFoc: Content-Focus Protection Against Trojan Attacks on Neural Networks

Miguel Villarreal-Vasquez, Bharat Bhargava|arXiv (Cornell University)|2020. 07. 01.
Adversarial Robustness in Machine Learning참고 문헌 48인용 수 23
한 줄 요약

ConFoc는 스타일이 아닌 콘텐츠에 초점을 맞추도록 학습시켜 트로이안이 심어진 딥 네트워크를 강화하는 새로운 방식의 방어 기법이다. 스타일 전이를 활용해 다양한 훈련 샘플을 생성하며, 다양한 트리거에 대해 공격 성공률를 1% 이하로 낮추면서도 정상 입력과 악성 입력에 대한 정확도를 유지하거나 향상시킨다.

ABSTRACT

Deep Neural Networks (DNNs) have been applied successfully in computer vision. However, their wide adoption in image-related applications is threatened by their vulnerability to trojan attacks. These attacks insert some misbehavior at training using samples with a mark or trigger, which is exploited at inference or testing time. In this work, we analyze the composition of the features learned by DNNs at training. We identify that they, including those related to the inserted triggers, contain both content (semantic information) and style (texture information), which are recognized as a whole by DNNs at testing time. We then propose a novel defensive technique against trojan attacks, in which DNNs are taught to disregard the styles of inputs and focus on their content only to mitigate the effect of triggers during the classification. The generic applicability of the approach is demonstrated in the context of a traffic sign and a face recognition application. Each of them is exposed to a different attack with a variety of triggers. Results show that the method reduces the attack success rate significantly to values < 1% in all the tested attacks while keeping as well as improving the initial accuracy of the models when processing both benign and adversarial data.

연구 동기 및 목표

  • 자율주행차와 얼굴 인식과 같은 핵심 응용 분야에서 사용되는 딥 네트워크의 트로이안 공격 증가에 대응하기 위해.
  • 기존 방어 기법이 정확도를 낮추거나 복잡하고 적응형 트리거에 대해 실패하는 한계를 극복하기 위해.
  • 구조적 변경이나 대규모 데이터셋이 필요 없는 일반적이고 모델 독립적인 방어 기법을 개발하기 위해.
  • 사람처럼 시각적 왜곡에 강건한 특성 기반의 분류 능력을 갖춘 DNN을 구현하기 위해.
  • 치료 후 악성 샘플 처리 시에도 정확도를 유지하거나 향상시키기 위해.

제안 방법

  • ConFoc는 소량의 정상 입력을 무작위 기반 이미지의 스타일로 증강하여 트로이안 모델을 미세조정한다.
  • 신경 기반 스타일 전이를 적용해 각 정상 입력에 대해 여러 스타일 버전을 생성하며, 콘텐츠는 유지하면서 텍스처와 색상은 변경한다.
  • 모델은 원본 및 스타일이 적용된 정상 샘플만으로 재학습되며, 이로 인해 콘텐츠 기반 특징을 학습하고 트리거와 관련된 스타일 패턴을 무시하도록 유도된다.
  • 추론 단계에서는 스타일에 관계없이 입력을 분류하며, 훈련 과정으로 인해 스타일이 효과적으로 무시된다.
  • 치료 과정은 모델 아키텍처, 데이터셋, 공격 유형에 관계없이 적용 가능하므로 광범위한 적용성을 갖춘다.
  • 작은 치료 세트와 몇 개의 스타일 기반 이미지에 접근 가능하다는 가정을 통해 실용적이고 경량적인 구현이 가능하다.

실험 결과

연구 질문

  • RQ1RQ1: ConFoc는 다양한 트리거 유형에 대해 트로이안 모델의 공격 성공률를 효과적으로 낮출 수 있는가?
  • RQ2RQ2: 치료 후 정상 입력과 악성 입력에 대해 ConFoc는 정확도를 유지하거나 향상시키는가?
  • RQ3RQ3: ConFoc는 다양한 모델, 데이터셋, 공격 변종(예: BadNets 및 트로이안 공격)으로 일반화 가능한가?
  • RQ4RQ4: 적응형 공격자(감지 회피를 위해 스타일이 적용된 악성 샘플을 훈련에 사용하는 자)에 대해 ConFoc의 효과는 어떠한가?
  • RQ5RQ5: 치료 과정에서 사용하는 스타일 수를 늘일수록 복잡한 트리거에 대한 강건성이 향상되는가?

주요 결과

  • ConFoc는 모든 테스트 트리거에 대해 공격 성공률(ASR)을 0.00%로 낮춘다. 이는 적응형 및 복잡한 트리거를 포함한다.
  • 정상 입력에 대한 정확도는 치료 후 안정되거나 향상되며, 97.44%에서 98.14%의 범위를 유지한다.
  • 악성 입력에 대해서도 정확도는 유지되거나 향상되며, 치료 후 최대 98.14%까지 도달한다. 초기 정확도가 낮았던 경우에도 마찬가지다.
  • 다양한 공격 변종, 다중 마킹 및 many-to-many 트리거를 포함한 모든 유형에서 ConFoc는 성능을 유지하거나 향상시킨다.
  • 복잡하고 다층적인 트리거를 가진 BadNets 공격을 효과적으로 무력화한다. 이러한 트리거는 탐지하거나 제거하기 어려운 편이다.
  • 치료 과정은 스타일이 적용된 악성 샘플을 훈련에 사용하는 적응형 공격자에 대해서도 강건하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.