[논문 리뷰] SOREL-20M: A Large Scale Benchmark Dataset for Malicious PE Detection
SOREL-20M은 거의 2000만 개의 PE 파일을 포함한 대규모 벤치마크 데이터셋으로, 사전 추출된 특징, 고품질 라벨, 비무장 샘플, 그리고 벤치마크 연구를 위한 베이스라인 모델을 포함하며, 공정한 비교 대상 악성코드 탐지 연구를 위한 목적.
In this paper we describe the SOREL-20M (Sophos/ReversingLabs-20 Million) dataset: a large-scale dataset consisting of nearly 20 million files with pre-extracted features and metadata, high-quality labels derived from multiple sources, information about vendor detections of the malware samples at the time of collection, and additional ``tags'' related to each malware sample to serve as additional targets. In addition to features and metadata, we also provide approximately 10 million ``disarmed'' malware samples -- samples with both the optional\_headers.subsystem and file\_header.machine flags set to zero -- that may be used for further exploration of features and detection strategies. We also provide Python code to interact with the data and features, as well as baseline neural network and gradient boosted decision tree models and their results, with full training and evaluation code, to serve as a starting point for further experimentation.
연구 동기 및 목표
- 대규모의 공개 가능한 PE 악성코드 탐지 벤치마크를 제공하여 모델 간 공정한 비교를 가능하게 한다.
- 벤더 탐지 및 행동 태그를 포함한 고품질 라벨과 풍부한 메타데이터를 제공하여 다양한 학습 목표를 지원한다.
- 안전한 피처 탐색 및 적대적 연구를 촉진하기 위해 비무장 샘플을 포함한다.
- 결과 재현을 위한 베이스라인 모델과 코드를 제공하고 연구 진척을 가속화한다.
제안 방법
- 사전 추출된 EMBER 피쳐와 PE 메타데이터를 포함한 약 20 million 개의 PE 파일 데이터셋을 구성한다.
- optional_headers.subsystem 및 file_header.machine 플래그를 0으로 설정하여 악성샘플을 비무장한 상태로 제공한다.
- 추가 타깃으로 행동 태그와 함께 고품질 라벨 및 벤더 탐지 수를 제공한다.
- 베이스라인 모델로 PyTorch FFNN과 EMBER-v2 피처에 대해 학습된 LightGBM 그래디언트 부스팅 트리를 포함한다.
- Python 코드 및 GitHub 저장소를 제공하여 학습/평가를 재현하고 데이터 저장소와 상호작용할 수 있도록 한다.
실험 결과
연구 질문
- RQ1PE 악성코드 탐지를 위한 데이터셋 규모 증가에 따라 모델 성능이 어떻게 스케일링되는가?
- RQ2다중 타깃 학습(예: 태그와 악성코드 라벨)의 탐지 정확도에 미치는 영향은 무엇인가?
- RQ3대규모의 실제 PE 데이터셋에서 낮은 거짓 양성률에서도 베이스라인 모델(FFNN, LightGBM)이 견고한 성능을 달성할 수 있는가?
- RQ4비무장 샘플이 피처 추출 및 탐지 전략 탐색에 얼마나 유용한가?
주요 결과
| Split | Malicious | Benign |
|---|---|---|
| 학습 세트 | 7596407 | 5102606 |
| 검증 세트 | 962222 | 1533579 |
| 테스트 세트 | 1360622 | 2834441 |
- 데이터셋에는 9,919,251개의 비무장 악성 샘플과 특징 및 메타데이터를 포함한 약 2000만 샘플이 있다.
- 시간 기반 분할로 학습 12,699,013, 검증 2,495,822, 테스트 4,195,042 샘플이 생성된다.
- 베이스라인 모델(FFNN 및 LightGBM)은 높은 ROC AUC를 달성하지만 낮은 거짓 양성률에서 개선 여지가 있다.
- 악성코드와 태그를 위한 다중 타깃 학습은 FFNN 설정에서 악성코드 출력 성능을 향상시킨다.
- 데이터셋에는 10개의 사전 학습된 베이스라인 모델과 결과 재현을 위한 전체 코드가 포함된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.