[论文解读] Cyber-All-Intel: An AI for Security related Threat Intelligence
Cyber-All-Intel 是一个基于人工智能的系统,通过结合知识图谱与神经嵌入的混合向量化知识图谱(VKG)结构,从多样化非结构化来源中提取、表示并分析网络安全威胁情报。其在搜索准确率(MAP 为 0.80)方面优于独立的向量模型和知识图谱,并支持主动告警与复杂查询处理,助力安全分析师提升响应能力。
Keeping up with threat intelligence is a must for a security analyst today. There is a volume of information present in `the wild' that affects an organization. We need to develop an artificial intelligence system that scours the intelligence sources, to keep the analyst updated about various threats that pose a risk to her organization. A security analyst who is better `tapped in' can be more effective. In this paper we present, Cyber-All-Intel an artificial intelligence system to aid a security analyst. It is a system for knowledge extraction, representation and analytics in an end-to-end pipeline grounded in the cybersecurity informatics domain. It uses multiple knowledge representations like, vector spaces and knowledge graphs in a 'VKG structure' to store incoming intelligence. The system also uses neural network models to pro-actively improve its knowledge. We have also created a query engine and an alert system that can be used by an analyst to find actionable cybersecurity insights.
研究动机与目标
- 解决散落在博客、社交媒体和暗网论坛等开放源情报(OSINT)来源中的碎片化且快速演变的威胁情报所带来的挑战。
- 开发一个端到端的人工智能系统,持续摄入、提取并以统一、可分析的形式表示网络安全知识。
- 通过基于组织系统配置文件的复杂查询与主动告警,提升威胁检测能力与分析师决策效率。
- 构建神经嵌入与结构化知识图谱之间的双向学习循环,以提升准确率与覆盖范围。
- 利用真实世界威胁数据,评估系统在知识检索、查询处理与告警相关性方面的性能表现。
提出的方法
- 系统从开放源情报(OSINT)来源摄入非结构化网络安全文本,包括NVD、暗网市场、博客和社交媒体。
- 利用自然语言处理(NLP)技术提取实体与关系,并填充集成显式知识图谱与分布式向量嵌入的向量化知识图谱(VKG)。
- VKG结构包含一个经嵌入感知增强的本体基础,支持符号表示与分布式表示的联合推理。
- 使用神经网络迭代优化知识图谱(通过关系预测)与向量嵌入(通过上下文建模)。
- 查询引擎支持复杂、声明式查询(例如:'列出与MySQL中拒绝服务攻击相似的漏洞'),利用知识图谱组件实现。
- 告警推荐系统通过将新出现的威胁与已知产品在向量空间中的邻域及系统配置文件匹配,生成组织特定的告警。
实验结果
研究问题
- RQ1如何有效地从多样化开放源情报(OSINT)来源中提取并统一表示非结构化威胁情报,使其具备可分析性?
- RQ2将向量嵌入与符号知识图谱结合,能在多大程度上提升检索与推理性能,相较于单独使用任一方法?
- RQ3混合VKG结构能否支持复杂、可操作的查询与安全分析师的实时告警?
- RQ4嵌入与知识图谱之间的双向学习机制,如何随时间推移提升系统的准确率与覆盖范围?
- RQ5系统生成的告警在真实世界威胁检测场景中实际效用如何?
主要发现
- VKG搜索实现了0.80的平均平均精度(MAP),显著优于独立向量模型(MAP 0.69)与知识图谱(MAP 0.43)。
- 在56组相似性匹配中,向量嵌入在47组中表现优于知识图谱,尤其在表示攻击、产品与漏洞方面表现突出。
- 经人工标注者评估,83%的自动提取知识图谱三元组被判定为正确,9%部分正确,8%错误。
- 在用户研究中,55个系统生成的告警中,43个被评为有用,9个为可能有用,仅有3个被认为无用,表明其具有极强的实际相关性。
- 通过补充共享库依赖关系与DBpedia链接,系统显著提升了告警的精确度与上下文相关性。
- 神经嵌入与知识图谱之间的双向训练循环,同时提升了嵌入质量与符号关系的完整性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。