Skip to main content
QUICK REVIEW

[论文解读] EMBER: An Open Dataset for Training Static PE Malware Machine Learning Models

Hyrum S. Anderson|arXiv (Cornell University)|Apr 12, 2018
Advanced Malware Detection Techniques参考文献 21被引用 135
一句话总结

EMBER 提供一个开放、带标签的静态 Windows PE 恶意软件基准数据集,包含 1.1M 个样本;它显示基线 LightGBM 模型在该数据上超越端到端的 MalConv。

ABSTRACT

This paper describes EMBER: a labeled benchmark dataset for training machine learning models to statically detect malicious Windows portable executable files. The dataset includes features extracted from 1.1M binary files: 900K training samples (300K malicious, 300K benign, 300K unlabeled) and 200K test samples (100K malicious, 100K benign). To accompany the dataset, we also release open source code for extracting features from additional binaries so that additional sample features can be appended to the dataset. This dataset fills a void in the information security machine learning community: a benign/malicious dataset that is large, open and general enough to cover several interesting use cases. We enumerate several use cases that we considered when structuring the dataset. Additionally, we demonstrate one use case wherein we compare a baseline gradient boosted decision tree model trained using LightGBM with default settings to MalConv, a recently published end-to-end (featureless) deep learning model for malware detection. Results show that even without hyper-parameter optimization, the baseline EMBER model outperforms MalConv. The authors hope that the dataset, code and baseline model provided by EMBER will help invigorate machine learning research for malware detection, in much the same way that benchmark datasets have advanced computer vision research.

研究动机与目标

  • 创建一个大型、开放且通用的良性/恶意 PE 文件基准,以促进恶意软件检测领域的机器学习研究。
  • 提供可扩展的特征集,以便进行模型比较、漂移分析和特征比较。
  • 支持在恶意软件检测领域的半监督学习、对抗性机器学习和可解释性机器学习研究。
  • 提供基线代码和可重复的实验,以便将新体系结构与已知标准进行基准测试。

提出的方法

  • 发布八组原始 PE 特征及直方图和计数,使用 PE 解析器(LIEF)获得解析特征。
  • 应用特征哈希技巧将原始特征转换为固定大小的模型特征(并指定箱数)。
  • 在向量化特征上使用 LightGBM 的默认参数构建基线梯度提升决策树模型。
  • 提供用于从其他二进制文件提取特征的开源代码,以扩展数据集。
  • 使用同一测试集将基线 LightGBM 模型与无特征的端到端深度学习模型(MalConv)进行比较。
  • 展示数据集在标准机器学习基准测试及与端到端方法比较中的实用性。

实验结果

研究问题

  • RQ1基于 EMBER 特征训练的基线机器学习模型在保留的测试集上检测恶意 PE 文件的能力有多强?
  • RQ2使用原始二进制数据的端到端深度学习模型(MalConv)是否在 EMBER 上优于基于手工特征的基线?
  • RQ3数据集设计选择(带标签/未带标签样本、时间拆分)对模型性能和泛化能力有何影响?

主要发现

  • 基线 LightGBM 模型在测试集上的 ROC AUC > 0.99911。
  • 在 0.1% 的假阳性率(FPR)下,检测率超过 92.99%。
  • 在小于 1% 的 FPR 下,检测率超过 98.2%。
  • 在同一 EMBER 测试集上,MalConv 的 ROC AUC 为 0.99821,在 FPR < 0.1% 时检测率为 92.2%,在 FPR < 1% 时为 97.3%。
  • 与 MalConv 相比,未进行超参数调整的 EMBER 开箱基线优于端到端模型。
  • EMBER 包含 900K 训练样本(300K 恶意,300K 良性,300K 未标注)和 200K 测试样本(100K 恶意,100K 良性)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。