QUICK REVIEW

[論文レビュー] EMBER: An Open Dataset for Training Static PE Malware Machine Learning Models

Hyrum S. Anderson|arXiv (Cornell University)|Apr 12, 2018

Advanced Malware Detection Techniques参考文献 21被引用数 135

ひとこと要約

EMBERは、静的Windows PEマルウェア検出のための1.1Mサンプルを含むオープンでラベル付きのベンチマークデータセットを提供します; 基本ラインのLightGBMモデルがこのデータに対してエンドツーエンドのMalConvを上回ることを示しています。

ABSTRACT

This paper describes EMBER: a labeled benchmark dataset for training machine learning models to statically detect malicious Windows portable executable files. The dataset includes features extracted from 1.1M binary files: 900K training samples (300K malicious, 300K benign, 300K unlabeled) and 200K test samples (100K malicious, 100K benign). To accompany the dataset, we also release open source code for extracting features from additional binaries so that additional sample features can be appended to the dataset. This dataset fills a void in the information security machine learning community: a benign/malicious dataset that is large, open and general enough to cover several interesting use cases. We enumerate several use cases that we considered when structuring the dataset. Additionally, we demonstrate one use case wherein we compare a baseline gradient boosted decision tree model trained using LightGBM with default settings to MalConv, a recently published end-to-end (featureless) deep learning model for malware detection. Results show that even without hyper-parameter optimization, the baseline EMBER model outperforms MalConv. The authors hope that the dataset, code and baseline model provided by EMBER will help invigorate machine learning research for malware detection, in much the same way that benchmark datasets have advanced computer vision research.

研究の動機と目的

悪性/善性PEファイル用の大規模でオープンかつ一般的なベンチマークを作成し、マルウェア検出のML研究を進展させる。
モデル比較、ドリフト分析、特徴比較を容易にする拡張可能な特徴セットを提供する。
マルウェア検出における半教師あり学習、敵対的ML、解釈可能MLの研究を支援する。
既知の標準と比較して新しいアーキテクチャをベンチマークする再現可能な実験とベースラインコードを提供する。

提案手法

PEパーサー（LIEF）を用いて解析特徴を含む、生のPE特徴8グループとヒストグラムおよびカウントをリリースする。
生の特徴を固定サイズのモデル特徴量へ変換するために特徴ハッシュ化のテクニックを適用する（ビン数を指定）。
ベクトル化された特徴に対してデフォルトパラメータでLightGBMを用いたベースラインの勾配ブースト決定木モデルを構築する。
追加のバイナリから特徴を抽出するオープンソースコードを提供し、データセットの拡張を可能にする。
同じテストセットを用いて、ベースラインのLightGBMモデルをハイパーパラメータ調整なしのエンドツーエンドの特徴なし深層学習モデル（MalConv）と比較する。
データセットの機能が標準MLベンチマークに対して有用であること、エンドツーエンドのアプローチと比較する際の有効性を示す。

実験結果

リサーチクエスチョン

RQ1EMBERの特徴量で訓練されたベースラインMLモデルは、保持アウトのテストセットで悪性PEファイルをどれくらい検出できるか？
RQ2生のバイナリを用いたエンドツーエンドの深層学習モデル（MalConv）は、EMBERの手作業特徴ベースのベースラインを上回るか？
RQ3データセット設計の選択（ラベル付き/ラベルなしサンプル、時系列分割）がモデルの性能と一般化にどのような影響を与えるか？

主な発見

ベースライン LightGBMモデルはテストセットでROC AUC > 0.99911を達成。
偽陽性率（FPR）0.1%のとき検出率は92.99%を超える。
FPRが1%未満のとき検出率は98.2%を超える。
同じEMBERテストセットでのMalConvはROC AUCが0.99821、FPR < 0.1%で92.2%、FPR < 1%で97.3%。
MalConvと比較して、ハイパーパラメータ調整なしのEMBERの出荷時ベースラインはエンドツーエンドモデルを上回る。
EMBERにはトレーニングサンプル900K（300K悪性、300K善性、300Kラベルなし）とテストサンプル200K（100K悪性、100K善性）が含まれている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。