Skip to main content
QUICK REVIEW

[论文解读] TRACE: Timely Retrieval and Alignment for Cybersecurity Knowledge Graph Construction and Expansion

Zijing Xu, Ziwei Ning|arXiv (Cornell University)|Feb 11, 2026
Advanced Graph Neural Networks被引用 0
一句话总结

TRACE 通过整合 24 个结构化数据源和 3 个非结构化数据源,使用基于大模型的提取与对齐来提升覆盖率和时效性,同时实现持续扩展的能力,构建了最大的网络安全知识图谱。

ABSTRACT

The rapid evolution of cyber threats has highlighted significant gaps in security knowledge integration. Cybersecurity Knowledge Graphs (CKGs) relying on structured data inherently exhibit hysteresis, as the timely incorporation of rapidly evolving unstructured data remains limited, potentially leading to the omission of critical insights for risk analysis. To address these limitations, we introduce TRACE, a framework designed to integrate structured and unstructured cybersecurity data sources. TRACE integrates knowledge from 24 structured databases and 3 categories of unstructured data, including APT reports, papers, and repair notices. Leveraging Large Language Models (LLMs), TRACE facilitates efficient entity extraction and alignment, enabling continuous updates to the CKG. Evaluations demonstrate that TRACE achieves a 1.8x increase in node coverage compared to existing CKGs. TRACE attains the precision of 86.08%, the recall of 76.92%, and the F1 score of 81.24% in entity extraction, surpassing the best-known LLM-based baselines by 7.8%. Furthermore, our entity alignment methods effectively harmonize entities with existing knowledge structures, enhancing the integrity and utility of the CKG. With TRACE, threat hunters and attack analysts gain real-time, holistic insights into vulnerabilities, attack methods, and defense technologies.

研究动机与目标

  • 解决由于网络安全知识图谱中结构化与非结构化数据之间的滞后导致的及时知识整合缺口。
  • 开发可扩展的网络安全本体,以统一多样化数据源并支持非结构化数据。
  • 利用大模型(LLMs)实现对非结构化源的实体自动提取与对齐,以实现持续的 CKG 更新。
  • 在覆盖率、实体提取准确性,以及对威胁分析的实际效用方面对 TRACE 进行评估。

提出的方法

  • 整合 24 个结构化数据源和 3 个非结构化源,构建具有 56 种节点类型和 112 种边类型的 CKG。
  • 实现一个可扩展的网络安全本体,与 STIX Domain Objects 对齐,实现多维表示。
  • 使用具备检索增强生成(RAG)的 LLMs,以及少量示例提示,从非结构化文本(APT、论文、修复通知等)中提取实体。
  • 通过向量相似性和零-shot 提示进行实体对齐,将新实体与现有图节点整合。
  • 实现数据收集的全量与增量爬取、去重、过滤和验证,支持近实时更新。

实验结果

研究问题

  • RQ1TRACE 的覆盖范围和节点之间的连通性相较于以往的 CKG 有多大改进?
  • RQ2TRACE 的实体提取与对齐在精确度、召回率和 F1 值方面有多大改进?
  • RQ3通过案例研究和真实场景,TRACE 是否能为威胁猎人和攻击分析师展示实际效用?

主要发现

  • TRACE 具有 4,741,428 个节点和 24,980,064 条边,在节点数量上比 BRON 多 1.8 倍、边数量多 1.79 倍;
  • TRACE 在实体提取方面的精确度为 86.08%、召回率为 76.92%、F1 值为 81.24%,比现有基于大模型的最佳基线提升 7.8%。
  • TRACE 覆盖 56 种节点类型和 112 种边类型,与此前的 CKG 相比,节点类型增加 4.67 倍、边类型增加 11.2 倍,呈现显著增长。
  • 孤立节点占比 2.63%;大多数节点通过密集关系连接,存在一些高度互联的超节点(例如 CWE-79 拥有 32,396 条边)。
  • 实体对齐依赖语义相似性与零-shot 提示,将新实体映射到现有图结构,跨多种实体类型实现高质量对齐。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。