QUICK REVIEW

[论文解读] SOREL-20M: A Large Scale Benchmark Dataset for Malicious PE Detection

Richard Harang, Ethan M. Rudd|arXiv (Cornell University)|Dec 14, 2020

Advanced Malware Detection Techniques参考文献 3被引用 65

一句话总结

SOREL-20M 是一个大型基准数据集，包含近2000万份 PE 文件，包含预提取特征、高质量标签、解除锁定样本和基线模型，旨在进行公平的恶意软件检测研究。

ABSTRACT

In this paper we describe the SOREL-20M (Sophos/ReversingLabs-20 Million) dataset: a large-scale dataset consisting of nearly 20 million files with pre-extracted features and metadata, high-quality labels derived from multiple sources, information about vendor detections of the malware samples at the time of collection, and additional ``tags'' related to each malware sample to serve as additional targets. In addition to features and metadata, we also provide approximately 10 million ``disarmed'' malware samples -- samples with both the optional\_headers.subsystem and file\_header.machine flags set to zero -- that may be used for further exploration of features and detection strategies. We also provide Python code to interact with the data and features, as well as baseline neural network and gradient boosted decision tree models and their results, with full training and evaluation code, to serve as a starting point for further experimentation.

研究动机与目标

提供一个大规模、公开可用的 PE 恶意软件检测基准，以实现模型之间公平的比较。
提供高质量的标签和丰富的元数据，包括厂商检测和行为标签，以支持多样的学习目标。
包含已解除锁定的样本，以促进安全特征探索和对抗性研究。
提供基线模型和代码以复现实验结果并加速研究进展。

提出的方法

组装一个包含~20百万份 PE 文件、预提取 EMBER 特征和 PE 元数据的数据集。
通过将 optional_headers.subsystem 和 file_header.machine 标志置零，提供已解除锁定的样本。
提供高质量的标签和厂商检测计数，并将行为标签作为额外目标。
基线模型包括在 EMBER-v2 特征上训练的 PyTorch FFNN 和 LightGBM 梯度提升树。
提供 Python 代码和 GitHub 存储库，以复现实验训练/评估并与数据存储交互。

实验结果

研究问题

RQ1在 PE 恶意软件检测中，模型性能如何随数据集规模的扩大而提升？
RQ2多目标学习（例如标签与恶意软件标签）对检测准确性的影响如何？
RQ3在大规模、真实世界的 PE 数据集上，基线模型（FFNN、LightGBM）是否能在低误报率下实现稳健性能？
RQ4去活化样本在探索特征提取和检测策略方面有多大用处？

主要发现

划分	恶意	良性
训练集	7596407	5102606
验证集	962222	1533579
测试集	1360622	2834441

数据集包含 9,919,251 个去活化样本，以及总计约 20,000,000 份带有特征和元数据的样本。
基于时间的划分产生训练集 12,699,013，验证集 2,495,822，测试集 4,195,042。
基线模型（FFNN 和 LightGBM）在 ROC AUC 上表现较高，但在低误报率时仍有提升空间。
在 FFNN 设置下，针对恶意软件和标签的多目标学习提升了恶意软件输出性能。
数据集包含 10 个预训练的基线模型以及可复现结果的完整代码。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。