QUICK REVIEW

[논문 리뷰] EMBER: An Open Dataset for Training Static PE Malware Machine Learning Models

Hyrum S. Anderson|arXiv (Cornell University)|2018. 04. 12.

Advanced Malware Detection Techniques참고 문헌 21인용 수 135

한 줄 요약

EMBER는 정적 Windows PE 맬웨어 탐지를 위한 110만 개 샘플의 개방형 라벨링 벤치마크 데이터셋을 제공하며, 이 데이터에서 기초 모델인 LightGBM이 엔드투엔드 MalConv를 능가하는 성능을 보임을 보여준다.

ABSTRACT

This paper describes EMBER: a labeled benchmark dataset for training machine learning models to statically detect malicious Windows portable executable files. The dataset includes features extracted from 1.1M binary files: 900K training samples (300K malicious, 300K benign, 300K unlabeled) and 200K test samples (100K malicious, 100K benign). To accompany the dataset, we also release open source code for extracting features from additional binaries so that additional sample features can be appended to the dataset. This dataset fills a void in the information security machine learning community: a benign/malicious dataset that is large, open and general enough to cover several interesting use cases. We enumerate several use cases that we considered when structuring the dataset. Additionally, we demonstrate one use case wherein we compare a baseline gradient boosted decision tree model trained using LightGBM with default settings to MalConv, a recently published end-to-end (featureless) deep learning model for malware detection. Results show that even without hyper-parameter optimization, the baseline EMBER model outperforms MalConv. The authors hope that the dataset, code and baseline model provided by EMBER will help invigorate machine learning research for malware detection, in much the same way that benchmark datasets have advanced computer vision research.

연구 동기 및 목표

악성/정상 PE 파일에 대한 크고 개방적이며 일반적인 벤치마크를 만들어 맬웨어 탐지에서의 ML 연구를 발전시킨다.
확장 가능한 특징 집합으로 모델 비교, 드리프트 분석 및 특징 비교를 용이하게 한다.
맬웨어 탐지에서 반지도 학습, 적대적 ML 및 해석 가능한 ML 연구를 지원한다.
기준 표준과 대조하기 위한 새로운 아키텍처를 벤치마크하기 위해 기본 코드 및 재현 가능한 실험을 제공한다.

제안 방법

구문 분석된 특징에 대해 PE 파서(LIEF)를 사용하여 원시 PE 특징 8그룹과 히스토그램 및 개수를 발표한다.
원시 특징을 고정 크기의 모델 특징으로 변환하기 위해 특징 해싱 트릭을 적용한다(빈 수는 명시된 대로).
벡터화된 특징에 대해 기본 매개변수로 LightGBM을 사용한 기초 그래디언트 부스트 결정 트리 모델을 구성한다.
데이터셋 확장을 가능하게 하는 추가 이진 파일에서 특징을 추출하는 오픈 소스 코드를 제공한다.
동일한 테스트 세트를 사용하여 특징 없는 엔드-투-엔드 딥러닝 모델(MalConv)과 기초 LightGBM 모델을 비교한다.
표준 ML 벤치마킹 및 엔드-투-엔드 접근 방식과의 비교를 위한 데이터셋의 활용성을 입증한다.

실험 결과

연구 질문

RQ1EMBER의 특징으로 학습된 기초 ML 모델이 보류된 테스트 세트에서 악성 PE 파일을 얼마나 잘 탐지할 수 있는가?
RQ2원시 이진 파일(MalConv)을 사용하는 엔드-투-엔드 딥러닝 모델이 EMBER의 수작업 특징 기반 기초 모델을 능가하는가?
RQ3데이터셋 설계 선택(라벨이 있는/없는 샘플, 시간적 분할)이 모델 성능 및 일반화에 미치는 영향은 무엇인가?

주요 결과

기초 LightGBM 모델이 테스트 세트에서 ROC AUC > 0.99911를 달성한다.
거짓 긍성율(FPR) 0.1%에서 탐지율이 92.99%를 초과한다.
FPR이 1% 미만일 때 탐지율이 98.2%를 넘는다.
동일 EMBER 테스트 세트의 MalConv은 ROC AUC 0.99821에 FPR < 0.1%에서 92.2%, FPR < 1%에서 97.3% 탐지를 보인다.
하이퍼파라미터 튜닝 없이 바로 사용할 수 있는 EMBER 기초 모델이 엔드-투-엔드 모델보다 성능이 더 우수하다.
EMBER는 900K 학습 샘플(300K 악성, 300K 정상, 300K 라벨 없는)과 200K 테스트 샘플(100K 악성, 100K 정상)을 포함한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.