QUICK REVIEW

[논문 리뷰] Malware Classification using Deep Learning based Feature Extraction and Wrapper based Feature Selection Technique

Muhammad Furqan Rafique, Muhammad Ali|arXiv (Cornell University)|2019. 10. 24.

Advanced Malware Detection Techniques참고 문헌 29인용 수 23

한 줄 요약

이 논문은 두 개의 딥 컨볼루션 신경망(Deep Convolutional Neural Networks, CNNs)에서 추출한 바이트 수준 특징과 SVM를 사용한 워퍼 기반 방법을 통해 선택된 옵코드 특징을 조합한 딥 러닝 기반 악성코드 분류 프레임워크를 제안한다. 하이브리드 특징 공간은 다층 퍼셉트론에 입력되어 10회의 실행 동안 로그 손실(log-loss)이 0.09로 나타나, 기준 분류기들에 비해 9개의 악성코드 가족을 분류하는 데서 뛰어난 성능을 보였다.

ABSTRACT

In the case of malware analysis, categorization of malicious files is an essential part after malware detection. Numerous static and dynamic techniques have been reported so far for categorizing malware. This research presents a deep learning-based malware detection (DLMD) technique based on static methods for classifying different malware families. The proposed DLMD technique uses both the byte and ASM files for feature engineering, thus classifying malware families. First, features are extracted from byte files using two different Deep Convolutional Neural Networks (CNN). After that, essential and discriminative opcode features are selected using a wrapper-based mechanism, where Support Vector Machine (SVM) is used as a classifier. The idea is to construct a hybrid feature space by combining the different feature spaces to overcome the shortcoming of particular feature space and thus, reduce the chances of missing a malware. Finally, the hybrid feature space is used to train a Multilayer Perceptron, which classifies all nine different malware families. Experimental results show that proposed DLMD technique achieves log-loss of 0.09 for ten independent runs. Moreover, the proposed DLMD technique's performance is compared against different classifiers and shows its effectiveness in categorizing malware. The relevant code and database can be found at https://github.com/cyberhunters/Malware-Detection-Using-Machine-Learning.

연구 동기 및 목표

정적 분석에서 정확한 악성코드 가족 분류 문제를 해결하기 위해 다양한 특징 표현 방식을 통합하는 것.
딥 러닝 기반 특징 추출과 워퍼 기반 특징 선택 기법을 통합하여 분류 성능을 향상시키는 것.
바이트 수준 및 어셈블리 수준 특징을 융합한 하이브리드 특징 공간을 구축하여 잠재적 오진(양성 반응 누락)을 줄이는 것.
기존의 전통적 분류기들과 비교하여 제안된 방법의 효과성을 악성코드 가족 분류에 대해 평가하는 것.
악성코드 분류 연구를 위한 재현 가능성을 보장하기 위해 공개된 소스 코드와 데이터셋을 제공하는 것.

제안 방법

원시 바이트 파일을 대상으로 두 개의 별도된 딥 컨볼루션 신경망(Deep Convolutional Neural Networks, CNNs)을 훈련시켜 분류에 유용한 저수준 및 고수준 특징을 추출한다.
ASM(어셈블리) 파일에서 옵코드 시퀀스를 추출하고, 이를 처리하여 악성코드 분석을 위한 특징 벡터를 생성한다.
SVM를 평가 지표로 사용하여 워퍼 기반 특징 선택 방법을 적용해 가장 정보량이 많고 분류에 유용한 옵코드 특징을 선별한다.
선택된 옵코드 특징을 CNN이 추출한 바이트 수준 특징과 융합하여 하이브리드 특징 공간을 구성한다.
하이브리드 특징 공간을 기반으로 다층 퍼셉트론(Multilayer Perceptron, MLP)을 훈련시어 9개의 서로 다른 악성코드 가족을 분류한다.
전체 파이프라인은 안정성과 일반화 능력을 확보하기 위해 10회의 독립적인 실행을 통해 평가된다.

실험 결과

연구 질문

RQ1딥 러닝 기반 바이트 수준 특징과 워퍼 최적화된 옵코드 특징을 융합하면 악성코드 가족 분류 정확도가 향상되는가?
RQ2제안된 하이브리드 특징 공간은 바이트 또는 옵코드 특징만을 사용하는 개별 특징 공간과 비교해 분류 성능에서 어떻게 다른가?
RQ3SVM를 사용한 워퍼 기반 특징 선택이 최종 악성코드 분류기의 성능에 어떤 영향을 미치는가?
RQ4제안된 방법은 기존의 전통적 분류기들에 비해 악성코드 가족 분류에서 더 낮은 로그 손실을 달성하는가?
RQ5이 프레임워크는 여러 실행 런에 걸쳐 일반화 능력을 유지하고 일관된 성능을 보이는가?

주요 결과

제안된 딥 러닝 기반 악성코드 탐지 기법(DLMD)은 10회의 독립적인 실행 동안 로그 손실(log-loss)이 0.09로 나타나 모델의 높은 안정성과 성능을 보여준다.
CNN이 추출한 바이트 특징과 워퍼 기반으로 선택된 옵코드 특징을 융합한 하이브리드 특징 공간은 단일 특징 공간 기반 접근 방식보다 분류 정확도를 크게 향상시킨다.
워퍼 기반 특징 선택 방법은 가장 분류에 유용한 옵코드 특징을 효과적으로 식별하여 노이즈를 줄이고 모델의 일반화 능력을 향상시킨다.
하이브리드 특징 공간을 기반으로 훈련된 다층 퍼셉트론은 9개의 서로 다른 악성코드 가족을 분류하는 데서 기준 분류기들을 능가하는 성능을 보인다.
이 방법은 여러 훈련 런에 걸쳐 낮은 분산을 유지하며 뛰어난 안정성과 일관성을 보이며, 성능이 일관되게 유지된다.
소스 코드와 데이터셋은 공개되어 있어 재현 가능성을 확보하고 악성코드 분류 연구의 후속 발전을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.