Skip to main content
QUICK REVIEW

[논문 리뷰] Adversarial Perturbations Against Deep Neural Networks for Malware Classification

Kathrin Grosse, Nicolas Papernot|arXiv (Cornell University)|2016. 06. 14.
Advanced Malware Detection Techniques참고 문헌 15인용 수 320
한 줄 요약

논문은 Android 악성코드 탐지용 신경망에 대한 적대적 제작(adversarial crafting)을 정적 특징으로 수행하였고, 이산적이고 기능 보존적인 수정에도 불구하고 오분류 비율이 높게 나타남을 보여주며, 증류(distillation)와 적대적 재훈련(adversarial retraining)과 같은 방어 기법을 평가한다.

ABSTRACT

Deep neural networks, like many other machine learning models, have recently been shown to lack robustness against adversarially crafted inputs. These inputs are derived from regular inputs by minor yet carefully selected perturbations that deceive machine learning models into desired misclassifications. Existing work in this emerging field was largely specific to the domain of image classification, since the high-entropy of images can be conveniently manipulated without changing the images' overall visual appearance. Yet, it remains unclear how such attacks translate to more security-sensitive applications such as malware detection - which may pose significant challenges in sample generation and arguably grave consequences for failure. In this paper, we show how to construct highly-effective adversarial sample crafting attacks for neural networks used as malware classifiers. The application domain of malware classification introduces additional constraints in the adversarial sample crafting problem when compared to the computer vision domain: (i) continuous, differentiable input domains are replaced by discrete, often binary inputs; and (ii) the loose condition of leaving visual appearance unchanged is replaced by requiring equivalent functional behavior. We demonstrate the feasibility of these attacks on many different instances of malware classifiers that we trained using the DREBIN Android malware data set. We furthermore evaluate to which extent potential defensive mechanisms against adversarial crafting can be leveraged to the setting of malware classification. While feature reduction did not prove to have a positive impact, distillation and re-training on adversarially crafted samples show promising results.

연구 동기 및 목표

  • 악성코드 분류에 사용되는 신경망의 강건성(robustness)을 적대적 섭동 하에서 동기 부여하고 연구한다.
  • 이미지의 적대적 제작 기법을 이산적이고 이진적 악성코드 특징으로 Adapt한다.
  • 악성코드에 특화된 제약(이산 특징, 기능 보존)이 공격 가능성에 미치는 영향을 평가한다.
  • 악성코드 분류기를 위한 특징 축소, 증류(distillation), 적대적 재훈련(adversarial retraining)과 같은 방어 전략의 효과를 평가한다.

제안 방법

  • DREBIN 데이터셋을 사용하여 Android 앱에서 추출한 정적 이진 특징 벡터를 이용해 다수의 feed-forward 신경망을 학습한다.
  • 응용 프로그램을 {0,1}^M의 고차원 이진 지시자 벡터 X로 표현하고 이진 분류(정상 vs. 악성)에는 softmax 출력을 사용한다.
  • 대상 클래스 확률을 가장 크게 증가시키는 특징 추가를 식별하기 위해 순차적으로 forward derivative(Jacobian)을 계산하여 적대적 샘플을 구성하되 기능에 영향을 주지 않는 특징 추가만 허용한다.
  • L1 노름 경계로 k개의 특징 추가를 허용하는 제약(예: k = 20)과 기존 특징을 방해하지 않는 추가만 허용하도록 섭동을 제한한다.
  • 프로그램 동작을 보존하기 위해 AndroidManifest.xml을 통해서만 특징을 추가하여 나타내는 기반 수정에 한정한다.
  • 네트워크 아키텍처 및 학습 배치의 악성코드 비율 전반에서 적대적 샘플의 오분류율을 평가한다.

실험 결과

연구 질문

  • RQ1정적 이진 Android 앱 특징으로 학습된 신경망이 DREBIN 데이터셋에서 최첨단 악성코드 탐지 성능을 달성할 수 있는가?
  • RQ2악성코드 탐지에서 이산적이고 기능 보존적인 특징 추가로 제약될 때 신경망은 적대적 제작에 강건한가?
  • RQ3Distillation, 적대적 샘플에 대한 재훈련과 같은 방어 전략이 악성코드 분류기의 적대적 취약성을 줄이는 데 얼마나 효과적인가?

주요 결과

  • 신경망은 DREBIN에서 약 97–98% 정확도에 도달하고 오탐률은 약 3–4%, 위양성과 위음성은 각각 약 7% 및 3% 근방으로 나타난다.
  • 적대적 제작은 악성 samples의 상당 부분을 잘못 분류시키며, 아키텍처 및 설정에 따라 수정 제한이 20개 특징일 때 오분류율이 대략 50%에서 84%까지 나타난다.
  • 특징 축소는 이 이산 도메인에서 방어에 도움이 되지 않거나 오히려 적대적 제작에 도움을 줄 수 있다.
  • 증류(distillation)는 오분류율을 낮추지만 이익은 제한적이다.
  • 적대적 샘플에 대한 재훈련은 저항력을 향상시키지만 효과는 하이퍼파라미터 선택에 따라 달라진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.