Skip to main content
QUICK REVIEW

[论文解读] CyNER: A Python Library for Cybersecurity Named Entity Recognition

Md Tanvirul Alam, Dipkamal Bhusal|arXiv (Cornell University)|Apr 8, 2022
Network Security and Intrusion Detection被引用 24
一句话总结

CyNER 是一个开源的 Python 库,将在网络安全数据上训练的基于变换器的 NER 模型与启发式指示器和通用 NLP 模型相结合,以提取网络安全威胁情报实体,具备可配置的预测合并。

ABSTRACT

Open Cyber threat intelligence (OpenCTI) information is available in an unstructured format from heterogeneous sources on the Internet. We present CyNER, an open-source python library for cybersecurity named entity recognition (NER). CyNER combines transformer-based models for extracting cybersecurity-related entities, heuristics for extracting different indicators of compromise, and publicly available NER models for generic entity types. We provide models trained on a diverse corpus that users can readily use. Events are described as classes in previous research - MALOnt2.0 (Christian et al., 2021) and MALOnt (Rastogi et al., 2020) and together extract a wide range of malware attack details from a threat intelligence corpus. The user can combine predictions from multiple different approaches to suit their needs. The library is made publicly available.

研究动机与目标

  • 阐明从非结构化报告中对开放式网络威胁情报(openCTI)进行结构化提取的需求。
  • 提供一个在多样化事件上标注的网络安全命名实体识别(NER)数据集。
  • 提供一个模块化的 CyNER 库,结合基于变换器的 NER、启发式指示符和通用 NER 模型。

提出的方法

  • 使用 tner 库,在覆盖五类实体(恶意软件、指示符、系统、组织、漏洞)的经过筛选的网络安全语料库上训练基于变换器的模型。
  • 通过正则表达式为如 URL、IP、哈希、CVE 等实体提供入侵/妥协指标的启发式规则。
  • 整合来自 Flair 和 spaCy 的通用 NER 模型,以捕获非网络安全实体。
  • 允许使用 Huggingface 的 transformers 和标准训练超参数对变换器模型进行微调。
  • 提供一个模块化的预测融合机制,具有可配置的优先级(默认 HTFS),用于合并来自多个模型的输出。

实验结果

研究问题

  • RQ1在标注的威胁情报语料上,预先在网络安全数据上训练的变换器模型表现如何?
  • RQ2结合基于变换器的 NER、启发式指示符和通用 NER 是否能提升整体提取准确性?
  • RQ3CyNER 是否可以在用户提供的标注数据集上进行微调,以适应新的威胁情报领域?

主要发现

ModelPrecisionRecallF1-score
BERT-base-uncased69.6769.8869.77
BERT-large-uncased72.6973.4573.07
RoBERTa-base37.2242.5039.69
RoBERTa-large34.7644.1838.91
XLM-RoBERTa-base74.5777.2375.88
XLM-RoBERTa-large75.3078.0776.66
  • 在所评估的变换器中,XLM-RoBERTa-large 在测试集上实现了最佳平均 F1 分数 76.66%。
  • 表3显示各模型的精确度/召回率/F1:BERT-base-uncased(69.77 F1),BERT-large-uncased(73.07 F1),RoBERTa-base(39.69 F1),RoBERTa-large(38.91 F1),XLM-RoBERTa-base(75.88 F1),XLM-RoBERTa-large(76.66 F1)。
  • 使用 XLM-RoBERTa-large 的按类别结果显示:Malware 77.39 F1,Indicator 82.27 F1,System 74.84 F1,Organization 64.98 F1,Vulnerability 88.89 F1。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。