[論文レビュー] SOREL-20M: A Large Scale Benchmark Dataset for Malicious PE Detection
SOREL-20M は nearly 20 million PE files を含む大規模なベンチマークデータセットであり、事前抽出済みの特徴量、高品質なラベル、無害化サンプル、ベースラインモデルを含み、公正な比較的マルウェア検出研究を目的としています。
In this paper we describe the SOREL-20M (Sophos/ReversingLabs-20 Million) dataset: a large-scale dataset consisting of nearly 20 million files with pre-extracted features and metadata, high-quality labels derived from multiple sources, information about vendor detections of the malware samples at the time of collection, and additional ``tags'' related to each malware sample to serve as additional targets. In addition to features and metadata, we also provide approximately 10 million ``disarmed'' malware samples -- samples with both the optional\_headers.subsystem and file\_header.machine flags set to zero -- that may be used for further exploration of features and detection strategies. We also provide Python code to interact with the data and features, as well as baseline neural network and gradient boosted decision tree models and their results, with full training and evaluation code, to serve as a starting point for further experimentation.
研究の動機と目的
- PEマルウェア検出のための大規模で公開可能なベンチマークを提供し、公正なモデル比較を可能にする。
- ベンダー検知や挙動タグを含む高品質なラベルと豊富なメタデータを提供し、さまざまな学習目標を支援する。
- 安全な特徴探索と敵対的研究を促進するために無害化サンプルを含める。
- 結果の再現性と研究の進展を促進するためのベースラインモデルとコードを提供する。
提案手法
- 事前抽出された EMBER features と PE metadata を含む ~20 million PEファイルのデータセットを組み立てる。
- optional_headers.subsystem および file_header.machine フラグをゼロにして無害化したマルウェアサンプルを提供する。
- 挙動タグを追加のターゲットとして、ベンダー検知数とともに高品質なラベルを提供する。
- ベースラインモデルには EMBER-v2 features を用いて学習した PyTorch FFNN と LightGBM の勾配ブースト木を含む。
- トレーニング/評価を再現し、データストアと対話するための Python コードと GitHub リポジトリを提供する。
実験結果
リサーチクエスチョン
- RQ1PEマルウェア検出におけるデータセットサイズの増加にモデル性能はどうスケールするか?
- RQ2複数ターゲット学習(例:タグとマルウェアラベル)の検出精度への影響は?
- RQ3大規模で実世界の PE データセットにおいて、FFNN や LightGBM などのベースラインモデルが低い偽陽性率で堅牢な性能を達成できるか?
- RQ4無害化サンプルは特徴抽出と検出戦略の探索にどれくらい有用か?
主な発見
| Split | Malicious | Benign |
|---|---|---|
| 訓練セット | 7596407 | 5102606 |
| 検証セット | 962222 | 1533579 |
| テストセット | 1360622 | 2834441 |
- このデータセットは 9,919,251 の disarmed malware samples と、features および metadata を含む総数 ~20 million のサンプルで構成されている。
- 時間ベースの分割により、訓練サンプル 12,699,013、検証サンプル 2,495,822、テストサンプル 4,195,042 が得られる。
- ベースラインモデル(FFNN および LightGBM)は高い ROC AUC を達成するが、低偽陽性率での改善余地がある。
- マルウェアとタグのマルチターゲット学習は、FFNN設定でマルウェア出力の性能を向上させる。
- このデータセットには事前学習済みベースラインモデルが 10 件含まれ、結果を再現するための完全なコードが付属する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。