[论文解读] Knowledge Graph for Malware Threat Intelligence
本文提出了TINKER,一个从83份非结构化威胁报告(2006–2021年)中手动整理的恶意软件威胁情报知识图谱。通过从恶意软件本体派生的RDF三元组并使用Brat工具进行注释,TINKER实现了对潜在威胁关系的结构化表示、推理与推断,支持高级分析任务,如趋势预测和缺失事实发现。
Cyber threat and attack intelligence information are available in non-standard format from heterogeneous sources. Comprehending them and utilizing them for threat intelligence extraction requires engaging security experts. Knowledge graphs enable converting this unstructured information from heterogeneous sources into a structured representation of data and factual knowledge for several downstream tasks such as predicting missing information and future threat trends. Existing large-scale knowledge graphs mainly focus on general classes of entities and relationships between them. Open-source knowledge graphs for the security domain do not exist. To fill this gap, we've built extsf{TINKER} - a knowledge graph for threat intelligence ( extbf{T}hreat extbf{IN}telligence extbf{K}nowl extbf{E}dge g extbf{R}aph). extsf{TINKER} is generated using RDF triples describing entities and relations from tokenized unstructured natural language text from 83 threat reports published between 2006-2021. We built extsf{TINKER} using classes and properties defined by open-source malware ontology and using hand-annotated RDF triples. We also discuss ongoing research and challenges faced while creating extsf{TINKER}.
研究动机与目标
- 解决网络安全领域缺乏开源、标准化知识图谱的问题。
- 将非结构化、异构的威胁情报报告转化为语义丰富、结构化的知识库。
- 利用RDF三元组和本体,实现对恶意软件数据的自动化推理与推断。
- 支持下游任务,如威胁预测、恶意实体关联分析以及上下文增强。
- 促进与现有安全标准(例如STIX、TAXII)及链接开放数据的互操作性。
提出的方法
- 使用Brat注释工具对83份威胁报告(2006–2021年)进行人工注释,以提取实体与关系。
- 将提取的实体与关系映射到正式的恶意软件本体,以确保语义一致性。
- 以RDF三元组(主语-谓词-宾语)形式表示数据,以支持机器可处理的知识表示。
- 使用推理引擎推断出源报告中未明确陈述的新事实与关系。
- 评估预训练NLP模型(如Flair、spaCy、Stanford NER)在自动化实体与关系抽取中的表现,结果显示Flair在恶意软件相关类别上准确度最高。
- 探索基于上下文的特征选择与正则表达式,以实现指标性破坏迹象和静态属性的可扩展自动化注释。
实验结果
研究问题
- RQ1如何系统性地将非结构化、异构的威胁情报报告转化为结构化、机器可处理的知识图谱?
- RQ2在恶意软件知识图谱中对RDF三元组进行推理,能在多大程度上揭示潜在或缺失的威胁关系?
- RQ3在网络安全文本中,哪些NLP模型在自动化实体与关系抽取方面最为有效?
- RQ4在保持语义准确性的同时,将人工整理扩展到大规模威胁数据面临哪些关键挑战?
- RQ5如何整合现有安全本体与链接开放数据,以增强上下文丰富性并提升互操作性?
主要发现
- 从83份威胁报告中手工生成了约3,000个RDF三元组,构成TINKER知识图谱的核心。
- Flair在测试的NLP模型中对识别恶意软件相关实体的准确度最高,是自动化注释流程的有力候选。
- 被注释频率最高的实体占所有注释的95%,表明关键威胁情报集中于少数重复出现的概念。
- TINKER能够推断出超越原始报告内容的新关系,例如通过共享的Turla驱动程序加载器(TDL)组件,发现DUSTMAN与ZeroCleare之间的关联。
- 将恶意软件本体与链接开放数据结合,增强了语义丰富性,并为未来与外部知识库的互操作性提供了支持。
- 持续面临的挑战包括可扩展的文档级关系抽取以及准确的上下文关系建模,这些仍是未来自动化工作的关键目标。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。