[論文レビュー] TRACE: Timely Retrieval and Alignment for Cybersecurity Knowledge Graph Construction and Expansion
TRACEは、LLMベースの抽出と整合を用いて24の構造化データと3の非構造化データ源を統合し、カバレッジとタイムリー性を向上させつつ、継続的な拡張を可能にする最大級のサイバーセキュリティ知識グラフを構築します。
The rapid evolution of cyber threats has highlighted significant gaps in security knowledge integration. Cybersecurity Knowledge Graphs (CKGs) relying on structured data inherently exhibit hysteresis, as the timely incorporation of rapidly evolving unstructured data remains limited, potentially leading to the omission of critical insights for risk analysis. To address these limitations, we introduce TRACE, a framework designed to integrate structured and unstructured cybersecurity data sources. TRACE integrates knowledge from 24 structured databases and 3 categories of unstructured data, including APT reports, papers, and repair notices. Leveraging Large Language Models (LLMs), TRACE facilitates efficient entity extraction and alignment, enabling continuous updates to the CKG. Evaluations demonstrate that TRACE achieves a 1.8x increase in node coverage compared to existing CKGs. TRACE attains the precision of 86.08%, the recall of 76.92%, and the F1 score of 81.24% in entity extraction, surpassing the best-known LLM-based baselines by 7.8%. Furthermore, our entity alignment methods effectively harmonize entities with existing knowledge structures, enhancing the integrity and utility of the CKG. With TRACE, threat hunters and attack analysts gain real-time, holistic insights into vulnerabilities, attack methods, and defense technologies.
研究の動機と目的
- 構造化データと非構造化データ間のヒステリシスによるタイムリーな知識統合のギャップに対処する。
- 多様なデータ源を統一し、非構造化データをサポートする拡張可能なサイバーセキュリティオントロジーを開発する。
- LLMsを用いて非構造化ソースからのエンティティを自動抽出・整合させ、継続的なCKGの更新を実現する。
- TRACEをカバレッジ、エンティティ抽出の精度、脅威分析の実用性の観点で評価する。
提案手法
- 24の構造化データ源と3つの非構造化源からデータを統合し、56ノードタイプと112エッジタイプを持つCKGを構築する。
- 多次元表現のためにSTIX Domain Objectsと整合した拡張可能なサイバーセキュリティオントロジーを実装する。
- 非構造化テキスト(APT、論文、修理通知)からエンティティを抽出するために、RAG付きのLLMsとFew-shot promptingを使用する。
- ベクトル類似性とゼロショット promptingによるエンティティ整合を行い、新規エンティティを既存グラフノードと統合する。
- ほぼリアルタイム更新を支援するため、完全クロールと増分クロール、デデュプリケーション、フィルタリング、検証を自動化する。
実験結果
リサーチクエスチョン
- RQ1TRACEのカバレッジはどれほど総合的で、ノードの相互接続性は従来のCKGと比べてどの程度か?
- RQ2エンティティ抽出と整合の精度、リコール、F1スコアはどの程度効果的か?
- RQ3ケーススタディや実世界のシナリオを通じて、脅威ハンターや攻撃分析者への実用性をTRACEは示せるか?
主な発見
- TRACEには4,741,428ノードと24,980,064エッジがあり、ノード数でBRONおよびCSKG4APTをそれぞれ1.8倍、エッジ数で1.79倍上回る。
- エンティティ抽出の精度86.08%、リコール76.92%、F1 81.24%を達成し、従来のLLMベースのベースラインを7.8%向上させた。
- TRACEは56ノードタイプと112エッジタイプをカバーし、先行するCKGに比べて大幅な成長を示す(ノードタイプは4.67倍、エッジタイプは11.2倍)。
- 孤立ノードは全体の2.63%を占め、多くのノードは密な関係で結ばれており、CWE-79のように32,396エッジを持つ超ノードも存在する。
- エンティ티整合は意味的類似性とゼロショット promptingに基づいて新規エンティティを既存グラフにマッピングすることで、多様なエンティティタイプで高い整合品質を達成する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。