QUICK REVIEW

[논문 리뷰] Adversarial Deep Learning for Robust Detection of Binary Encoded Malware

Abdullah Al-Dujaili, Alex Huang|arXiv (Cornell University)|2018. 01. 09.

Adversarial Robustness in Machine Learning인용 수 38

한 줄 요약

이 논문은 이산적 바이너리 도메인에 연속 공간의 안정점 최적화를 적응시켜 이진 인코딩 악성코드를 탐지하기 위한 강건한 적대적 훈련 프레임워크인 Sleipnir을 제안한다. 기능적으로 보존된 적대적 악성코드 예제를 생성하기 위한 네 가지 방법을 도입하였으며, 랜덤화된 내부 최대화가 기준 모델 대비 최대 3.0배 높은 블라인드 스팟 커버리지와 2.4% 낮은 거짓 음성 비율을 달성했으며, 강건성과 관련된 온라인 측정치 ($\bar{\mathcal{N}}_{BS}$)가 강건성과 상관관계를 보였다.

ABSTRACT

Malware is constantly adapting in order to avoid detection. Model based malware detectors, such as SVM and neural networks, are vulnerable to so-called adversarial examples which are modest changes to detectable malware that allows the resulting malware to evade detection. Continuous-valued methods that are robust to adversarial examples of images have been developed using saddle-point optimization formulations. We are inspired by them to develop similar methods for the discrete, e.g. binary, domain which characterizes the features of malware. A specific extra challenge of malware is that the adversarial examples must be generated in a way that preserves their malicious functionality. We introduce methods capable of generating functionally preserved adversarial malware examples in the binary domain. Using the saddle-point formulation, we incorporate the adversarial examples into the training of models that are robust to them. We evaluate the effectiveness of the methods and others in the literature on a set of Portable Execution~(PE) files. Comparison prompts our introduction of an online measure computed during training to assess general expectation of robustness.

연구 동기 및 목표

적대적 예제가 악성 기능을 유지하면서 탐지 회피를 시도하는 악성코드 탐지기의 취약성을 해결하기 위해.
특히 연속 영역에서의 강건한 적대적 훈련 방법—구체적으로 안정점 최적화—를 악성코드에서 흔히 볼 수 있는 이산적 바이너리 특징 공간에 적응시키기 위해.
기능을 보존하는 적대적 예제를 생성하고, 회피 공격에 대한 모델의 강건성을 향상시키는 훈련 프레임워크를 개발하기 위해.
훈련 중 모델 강건성의 일반 기대치를 평가하기 위한 온라인 훈련 지표 ($\bar{\mathcal{N}}_{BS}$)를 도입하기 위해.
포트러블 엑스큐티브(PE) 파일에 대해 프레임워크를 평가하고 기존의 적대적 제작 방법과의 강건성 비교를 수행하기 위해.

제안 방법

Sleipnir 프레임워크는 바이너리 인코딩 악성코드 특징에 대해 딥 네ural 네트워크(DNNs)를 훈련시키기 위해 안정점 최적화 공식을 사용하며, 강건성을 최소-최대 게임으로 간주한다.
기능을 보존하면서 바이너리 도메인에서 적대적 악성코드 예제를 생성하기 위해 네 가지 내부 최대화 방법—dFGSM$^k$, rFGSM$^k$, BGA$^k$, 및 BCA$^k$—을 제안한다.
투영된 기울기 하강법의 반올림 단계에서 랜덤화를 적용하여 적대적 공간 탐색을 향상시키고 블라인드 스팟 커버리지를 증가시킨다.
적대적 예제를 적대적 훈련을 통해 훈련 과정에 통합하여, 변형에 대한 최악의 손실을 최소화한다.
브룸 필터를 사용하여 계산된 온라인 측정치 $\bar{\mathcal{N}}_{BS}$는 훈련 중 생성된 고유한 적대적 샘플 수를 근사하여 강건성을 평가한다.
모델은 $k=50$개의 변형을 각 샘플당 적용한 총 7,600개의 PE 파일 데이터셋(양성 3,800개, 악성 3,800개)을 대상으로 평가되었다.

실험 결과

연구 질문

RQ1연속 영역에서 유래한 안정점 최적화 공식이 악성코드 특징의 이산적 바이너리 도메인에 효과적으로 적응될 수 있는가?
RQ2기존 악성코드의 악성 기능을 보존하면서 바이너리 도메인에서 적대적 예제를 생성할 수 있는가?
RQ3적대적 훈련에 랜덤화된 내부 최대화를 통합하면 회피 공격에 대한 모델의 강건성이 뚜렷이 향상되는가?
RQ4온라인 훈련 지표 $\bar{\mathcal{N}}_{BS}$는 훈련 중 모델 강건성의 일반 기대치를 신뢰성 있게 반영할 수 있는가?
RQ5실제 PE 파일에서 제안된 프레임워크는 기존의 적대적 제작 방법, 예를 들어 [13]의 방법과 비교해 강건성이 뛰어나게 되는가?

주요 결과

랜덤화된 rFGSM$^k$ 방법은 자연 기준 모델 대비 최고의 블라인드 스팟 커버리지 ($\mathbf{+3.0}$)와 가장 낮은 거짓 음성 비율 ($\mathbf{-2.4}$)을 달성했다.
rFGSM$^k$ 방법은 거짓 양성 비율을 3.6% 감소시켰고, 높은 정확도를 유지하며 다른 적대적 훈련 방법보다 뛰어났다.
rFGSM$^k$로 훈련된 모델은 자신의 예상 적대자에 대해 뿐만 아니라 5.7%의 회피율을 보이며 강건성을 입증했다.
온라인 측정치 $\bar{\mathcal{N}}_{BS}$는 회피율과 블라인드 스팟 커버리지와 강한 상관관계를 보였으며, 실시간 강건성 지표로의 유효성을 입증했다.
랜덤화된 방법으로 훈련된 모델는 [13]의 적대적 제작 방법에 대해 15.6%의 회피율을 보였으며, 자연 모델의 99.7% 회피율에 비해 훨씬 낮았다.
프레임워크는 투영된 기울기 하강법의 반올림 단계에서의 랜덤화가 자연 훈련보다 바이너리 특징 공간에서 약 네 배 더 많은 악성 샘플을 노출시켰다는 점을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.