QUICK REVIEW

[논문 리뷰] Machine Learning With Feature Selection Using Principal Component Analysis for Malware Detection: A Case Study

Jason Zhang|arXiv (Cornell University)|2019. 02. 10.

Advanced Malware Detection Techniques참고 문헌 10인용 수 25

한 줄 요약

이 논문은 주성분 분석(PCA)과 다층 퍼셉트론(MLP) 신경망을 통합하여 PDF 악성코드 탐지에서 특성 차원을 감소시키는 개선된 기계학습 접근법을 제안한다. 이 방법은 특성 수를 33% 감소시키고 학습 속도를 22% 향상시키며, 93.17%의 참 양성률과 0.08%의 참 음성률을 유지한다. 이는 최고의 상용 악성코드 방지 소프트웨어보다도 뛰어난 성능을 보인다.

ABSTRACT

Cyber security threats have been growing significantly in both volume and sophistication over the past decade. This poses great challenges to malware detection without considerable automation. In this paper, we have proposed a novel approach by extending our recently suggested artificial neural network (ANN) based model with feature selection using the principal component analysis (PCA) technique for malware detection. The effectiveness of the approach has been successfully demonstrated with the application in PDF malware detection. A varying number of principal components is examined in the comparative study. Our evaluation shows that the model with PCA can significantly reduce feature redundancy and learning time with minimum impact on data information loss, as confirmed by both training and testing results based on around 105,000 real-world PDF documents. Of the evaluated models using PCA, the model with 32 principal feature components exhibits very similar training accuracy to the model using the 48 original features, resulting in around 33% dimensionality reduction and 22% less learning time. The testing results further confirm the effectiveness and show that the model is able to achieve 93.17% true positive rate (TPR) while maintaining the same low false positive rate (FPR) of 0.08% as the case when no feature selection is applied, which significantly outperforms all evaluated seven well known commercial antivirus (AV) scanners of which the best scanner only has a TPR of 84.53%.

연구 동기 및 목표

기계학습을 통한 악성코드 탐지에서 특성의 중복성과 높은 계산 비용 문제를 해결하기 위해.
실제 PDF 악성코드 탐지 작업에서 PCA 기반 특성 선택이 모델 성능과 학습 효율성에 미치는 영향을 평가하기 위해.
탐지 정확도와 참 음성률 측면에서 제안된 PCA 향상 모델을 원본 MLP df 모델 및 상용 악성코드 방지 소프트웨어와 비교하기 위해.
PCA를 통한 차원 감소가 중요한 정보를 유지하면서도 학습 시간과 특성 중복을 크게 줄일 수 있음을 입증하기 위해.

제안 방법

이전에 제안된 MLP df 모델에 PCA 기반 특성 선택을 도입하여 입력 차원을 감소시켰다.
주성분 분석을 통해 원래 특성의 가장 정보가 많은 선형 조합을 추출하고, 최대 분산을 유지한다.
10, 28, 32개의 주성분을 포함한 여러 PCA 설정을 테스트하였으며, 이는 각각 79%, 41%, 33%의 차원 감소를 의미한다.
MLP df 모델 아키텍처는 그대로 유지—은닉층이 각각 72개의 뉴런을 가지는 두 개의 은닉층과 이진 분류를 위한 단일 시그모이드 출력층.
모델은 5,000 에포크 동안 훈련되었으며, 악성 및 양성 샘플이 포함된 약 105,000건의 실제 PDF 문서로 구성된 데이터셋에서 평가되었다.
성능은 참 양성률(TPR), 참 음성률(FPR), 학습 정확도, 학습 시간을 기준으로 측정되었다.

실험 결과

연구 질문

RQ1PCA 기반 특성 선택이 예측 정보 손실를 최소화하면서 PDF 악성코드 탐지에서 차원을 효과적으로 감소시킬 수 있는가?
RQ2학습 정확도와 추론 속도 측면에서 PCA 향상 모델은 원본 MLP df 모델보다 어떻게 비교되는가?
RQ3PCA 기반 모델이 악성 PDF를 탐지하는 데서 상용 악성코드 방지 소프트웨어보다 얼마나 뛰어나게 성능을 발휘하는가?
RQ4모델 효율성과 탐지 정확도를 균형 잡는 데 최적의 주성분 수는 얼마인가?

주요 결과

32개의 주성분을 가진 모델(MLP_df+PCA_32)은 원본 MLP df 모델과 거의 동일한 학습 정확도를 달성하여 정보 손실가 최소화됨을 시사한다.
PCA 기반 모델은 전체 특성 모델 대비 약 33%의 특성 차원 감소와 22%의 학습 시간 단축을 달성했다.
MLP_df+PCA_32 모델은 참 양성률 93.17%를 기록했으며, 참 음성률 0.08%를 유지하여 원본 MLP df 모델과 동일한 성능을 보였다.
제안된 모델은 동일한 테스트 세트에서 오직 84.53%의 참 양성률을 기록한 최고의 상용 악성코드 방지 소프트웨어를 크게 능가했다.
누적 설명 분산 비율 분석을 통해 32개의 주성분이 높은 탐지 정확도를 유지하기에 충분한 정보를 유지하고 있음을 확인했다.
10개의 주성분을 가진 모델는 3,000 에포크 후 약 98%의 학습 정확도를 달성하여 낮은 차원에서도 강한 수렴 성능을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.