QUICK REVIEW

[논문 리뷰] Knowledge Graph for Malware Threat Intelligence

Sharmishtha Dutta, Nidhi Rastogi|arXiv (Cornell University)|2021. 01. 01.

Topic Modeling참고 문헌 6인용 수 3

한 줄 요약

이 논문은 2006–2021년 기간 동안의 83개의 비정형 위협 보고서에서 유래한 악성코드 위협 지능을 위한 수작업으로 총정리된 지식 그래프인 TINKER를 소개한다. 악성코드 온톨로지에서 유도된 RDF 삼중항과 Brat 툴을 통한 주석 처리를 통해, TINKER는 잠재적 위협 관계의 구조화된 표현, 추론 및 추론을 가능하게 하여 사이버보안 분야에서 추세 예측 및 누락된 사실 탐지와 같은 고급 분석을 지원한다.

ABSTRACT

Cyber threat and attack intelligence information are available in non-standard format from heterogeneous sources. Comprehending them and utilizing them for threat intelligence extraction requires engaging security experts. Knowledge graphs enable converting this unstructured information from heterogeneous sources into a structured representation of data and factual knowledge for several downstream tasks such as predicting missing information and future threat trends. Existing large-scale knowledge graphs mainly focus on general classes of entities and relationships between them. Open-source knowledge graphs for the security domain do not exist. To fill this gap, we've built extsf{TINKER} - a knowledge graph for threat intelligence ( extbf{T}hreat extbf{IN}telligence extbf{K}nowl extbf{E}dge g extbf{R}aph). extsf{TINKER} is generated using RDF triples describing entities and relations from tokenized unstructured natural language text from 83 threat reports published between 2006-2021. We built extsf{TINKER} using classes and properties defined by open-source malware ontology and using hand-annotated RDF triples. We also discuss ongoing research and challenges faced while creating extsf{TINKER}.

연구 동기 및 목표

사이버보안 분야에서 오픈소스이자 표준화된 지식 그래프의 부족을 해소하기 위해.
비정형이고 이질적인 위협 지능 보고서를 의미적으로 풍부한 구조화된 지식 기반으로 변환하기 위해.
RDF 삼중항과 온톨로지를 활용하여 악성코드 데이터에 대한 자동 추론 및 추론을 가능하게 하기 위해.
위협 예측, 악성 엔티티 간 상관관계 분석 및 맥락적 강화와 같은 후속 작업을 지원하기 위해.
기존 보안 표준(예: STIX, TAXII) 및 연결된 오픈 데이터와의 상호운용성을 촉진하기 위해.

제안 방법

83개의 위협 보고서(2006–2021)를 Brat 주석 툴을 사용하여 수작업으로 엔티티와 관계를 추출하기 위해 주석 처리하였다.
추출된 엔티티와 관계를 의미 일관성을 확보하기 위해 공식적인 악성코드 온톨로지에 매핑하였다.
기계 처리 가능한 지식 표현을 가능하게 하기 위해 데이터를 RDF 삼중항(주어-서술어-목적어) 형태로 표현하였다.
기존 보고서에 명시적으로 기재되지 않은 새로운 사실과 관계를 추론하기 위해 리asoner를 활용하였다.
자동화된 엔티티 및 관계 추출을 위한 사전 학습된 NLP 모델(예: Flair, spaCy, Stanford NER) 평가를 수행하였으며, Flair가 악성코드 관련 클래스에 대해 가장 높은 정확도를 보였다.
지속 가능한 자동 주석 처리를 위해 지표의 손상 여부 및 정규 표현식 기반의 특징 선택을 탐색하였다.

실험 결과

연구 질문

RQ1비정형적이고 이질적인 위협 지능 보고서를 체계적으로 구조화되고 기계로 처리 가능한 지식 그래프로 변환하는 방법은 무엇인가?
RQ2악성코드 지식 그래프에서 RDF 삼중항에 대한 추론이 암묵적이거나 누락된 위협 관계를 얼마나 잘 드러내는가?
RQ3사이버보안 텍스트에서 자동 엔티티 및 관계 추출에 가장 효과적인 NLP 모델은 무엇인가?
RQ4의미 정확도를 유지하면서 대규모 위협 데이터에 대해 수작업 총정리를 스케일링하는 데 있어 주요 과제는 무엇인가?
RQ5기존 보안 온톨로지와 연결된 오픈 데이터를 통합하여 맥락적 강화 및 상호운용성을 향상시키는 방법은 무엇인가?

주요 결과

83개의 위협 보고서에서 약 3,000개의 RDF 삼중항이 수작업으로 생성되어 TINKER 지식 그래프의 핵심을 이룬다.
Flair는 테스트된 NLP 모델들 중에서 악성코드 관련 엔티티 식별에 가장 높은 정확도를 기록하여 자동 주석 파이프라인의 강력한 후보로 나타났다.
가장 자주 주석 처리된 엔티티들은 전체 주석의 95%를 차지하여, 핵심 위협 지능이 소수의 반복되는 개념에 집중되어 있음을 시사한다.
TINKER는 보고서 내용에 명시적으로 기재되지 않은 관계, 예를 들어 DUSTMAN과 ZeroCleare 간의 공통 Turla Driver Loader(TDL) 구성 요소를 통한 연결 관계를 추론할 수 있다.
악성코드 온톨로지와 연결된 오픈 데이터의 통합은 의미적 풍부성을 향상시키며, 외부 지식 기반과의 향후 상호운용성을 지원한다.
지속적인 과제로는 확장 가능한 문서 수준의 관계 추출 및 정확한 맥락 기반 관계 모델링이 있으며, 이는 향후 자동화의 주요 목표로 남아 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.