Skip to main content
QUICK REVIEW

[论文解读] SMART: Semantic Malware Attribute Relevance Tagging.

Felipe N. Ducau, Ethan M. Rudd|arXiv (Cornell University)|May 15, 2019
Advanced Malware Detection Techniques被引用 9
一句话总结

该论文提出SMART,一种深度学习模型,通过学习恶意文件行为相似性在表示空间中紧密聚类的表示,生成人类可读的语义标签。该模型在每标签1%假阳性率下,对恶意软件的正确描述标签化准确率达95%,并相较基于动态执行追踪的原始特征向量,将相似性索引大小减少32倍。

ABSTRACT

With the rapid proliferation and increased sophistication of malicious software (malware), detection methods no longer rely only on manually generated signatures but have also incorporated more general approaches like machine learning detection. Although powerful for conviction of malicious artifacts, these methods do not produce any further information about the type of threat that has been detected neither allows for identifying relationships between malware samples. In this work, we address the information gap between machine learning and signature-based detection methods by learning a representation space for malware samples in which files with similar malicious behaviors appear close to each other. We do so by introducing a deep learning based tagging model trained to generate human-interpretable semantic descriptions of malicious software, which, at the same time provides potentially more useful and flexible information than malware family names. We show that the malware descriptions generated with the proposed approach correctly identify more than 95% of eleven possible tag descriptions for a given sample, at a deployable false positive rate of 1% per tag. Furthermore, we use the learned representation space to introduce a similarity index between malware files, and empirically demonstrate using dynamic traces from files' execution, that is not only more effective at identifying samples from the same families, but also 32 times smaller than those based on raw feature vectors.

研究动机与目标

  • 通过实现可解释的威胁表征,弥合基于机器学习的恶意软件检测与基于签名的方法之间的信息鸿沟。
  • 克服传统恶意软件家族名称的局限性,生成更丰富、语义更明确的恶意行为描述。
  • 学习一个紧凑且有意义的表示空间,使行为相似的恶意软件样本在语义上彼此接近。
  • 开发一种恶意软件文件间的相似性索引,其在识别家族关系方面更有效,且显著小于基于原始特征的索引。

提出的方法

  • 训练深度学习模型,基于其动态执行追踪为恶意软件生成人类可读的语义描述(标签)。
  • 学习一个低维表示空间,使表现出相似恶意行为的恶意软件样本在其中被嵌入得彼此接近。
  • 利用学习到的表示计算恶意软件文件间的相似性索引,替代原始特征向量。
  • 优化标签模型,以最小化假阳性率,同时最大化对预定义标签类别(如数据外泄、持久化)的正确识别。
  • 利用恶意软件执行的动态追踪提取行为特征,用于表示学习和相似性计算。
  • 应用该模型,使用多标签分类框架对恶意软件样本进行分类和标签化,同时控制假阳性率。

实验结果

研究问题

  • RQ1深度学习模型能否生成准确、人类可读的语义标签,以反映恶意软件的实际恶意行为?
  • RQ2与基于原始特征的相似性相比,学习到的表示空间在识别恶意软件家族方面有多大程度的改进?
  • RQ3基于学习表示的相似性索引与基于原始特征向量的相似性索引相比,大小如何?
  • RQ4当在多个预定义标签中识别特定恶意行为时,该标签模型的假阳性率是多少?

主要发现

  • SMART模型对给定恶意软件样本的十一个预定义恶意行为标签中的超过95%实现了正确识别。
  • 该模型将每标签1%的假阳性率保持在可部署水平,确保在实际部署中具有高可靠性。
  • 基于学习表示的相似性索引比基于原始特征向量的相似性索引小32倍。
  • 学习到的表示空间显著提升了利用动态执行追踪识别同一家族恶意软件样本的有效性。
  • 生成的语义标签比传统恶意软件家族名称提供了更灵活、更丰富的描述。
  • 该方法成功弥合了黑箱机器学习检测与人类可读威胁分析之间的鸿沟。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。