[논문 리뷰] TRACE: Timely Retrieval and Alignment for Cybersecurity Knowledge Graph Construction and Expansion
TRACE는 24개의 구조화 데이터 소스와 3개의 비구조화 데이터 소스를 통합하여 가장 큰 사이버보안 지식 그래프를 구축하고, LLM 기반 추출 및 정합을 활용해 커버리지와 시의성을 개선하며 지속적 확장을 가능하게 한다.
The rapid evolution of cyber threats has highlighted significant gaps in security knowledge integration. Cybersecurity Knowledge Graphs (CKGs) relying on structured data inherently exhibit hysteresis, as the timely incorporation of rapidly evolving unstructured data remains limited, potentially leading to the omission of critical insights for risk analysis. To address these limitations, we introduce TRACE, a framework designed to integrate structured and unstructured cybersecurity data sources. TRACE integrates knowledge from 24 structured databases and 3 categories of unstructured data, including APT reports, papers, and repair notices. Leveraging Large Language Models (LLMs), TRACE facilitates efficient entity extraction and alignment, enabling continuous updates to the CKG. Evaluations demonstrate that TRACE achieves a 1.8x increase in node coverage compared to existing CKGs. TRACE attains the precision of 86.08%, the recall of 76.92%, and the F1 score of 81.24% in entity extraction, surpassing the best-known LLM-based baselines by 7.8%. Furthermore, our entity alignment methods effectively harmonize entities with existing knowledge structures, enhancing the integrity and utility of the CKG. With TRACE, threat hunters and attack analysts gain real-time, holistic insights into vulnerabilities, attack methods, and defense technologies.
연구 동기 및 목표
- 사이버 보안 지식 그래프에서 구조화 데이터와 비구조화 데이터 간의 히스테리시스(hysteresis)로 인한 시의적절한 지식 통합의 격차를 해결한다.
- 다양한 데이터 소스를 통합하고 비구조화 데이터를 지원하기 위한 확장 가능한 사이버보안 온톨로지를 개발한다.
- LLMs를 사용하여 비구조화 소스에서 엔티티의 자동 추출 및 정합을 가능하게 하여 지속적인 CKG 업데이트를 지원한다.
- 커버리지, 엔티티 추출 정확도 및 위협 분석에 대한 실용적 활용도를 기준으로 TRACE를 평가한다.
제안 방법
- 24개의 구조화 데이터 소스와 3개의 비구조화 소스의 데이터를 통합하여 56개의 노드 타입과 112개의 엣지 타입을 갖춘 CKG를 구성한다.
- 다차원 표현을 위한 STIX Domain Objects에 맞춘 확장 가능한 사이버보안 온톨로지를 구현한다.
- Retrieval-Augmented Generation(RAG)과 few-shot 프롬프트를 활용하여 비구조화 텍스트(APTs, 논문, 수리 공지 등)에서 엔티티를 추출하기 위해 LLM을 사용한다.
- 벡터 유사도와 제로샷 프롬프팅을 통해 새 엔티티를 기존 그래프 노드와 통합하기 위한 엔티티 정합을 수행한다.
- 실시간 업데이트에 근접하도록 전체/증분 크롤링, 중복 제거, 필터링 및 검증으로 데이터 수집을 자동화한다.
실험 결과
연구 질문
- RQ1TRACE의 커버리지는 얼마나 포괄적이며 이전 CKG와 비교했을 때 노드 간의 연결성은 어떤가?
- RQ2정확도, 재현율, F1 점수 측면에서 TRACE의 엔티티 추출 및 정합은 얼마나 효과적인가?
- RQ3사례 연구와 실제 시나리오를 통해 TRACE가 위협 헌터와 공격 분석가에게 실용적 활용성을 보여줄 수 있는가?
주요 결과
- TRACE는 4,741,428개의 노드와 24,980,064개의 엣지를 포함하여 노드에서 BRON과 CSKG4APT를 각각 1.8배, 엣지에서 1.79배 앞선다.
- 엔티티 추출에서 정밀도 86.08%, 재현율 76.92%, F1 81.24%를 달성하여 알려진 최고 LLM 기반 기준선을 7.8% 개선했다.
- TRACE는 56개의 노드 타입과 112개의 엣지 타입을 다루며, 이전 CKG 대비 상당한 성장을 나타낸다(노드 타입 4.67배, 엣지 타입 11.2배).
- 고립된 노드는 전체의 2.63%를 차지하며, 대부분의 노드가 밀집된 관계로 연결되어 있고 일부는 매우 상호 연결된 슈퍼 노드(CWE-79 예: 32,396 엣지)로 구성되어 있다.
- 엔티티 정합은 의미적 유사도와 제로샷 프롬프팅에 의존하여 새로운 엔티티를 기존 그래프 구조에 매핑하며, 여러 엔티티 유형에서 높은 정합 품질을 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.