QUICK REVIEW

[논문 리뷰] CTIBench: A Benchmark for Evaluating LLMs in Cyber Threat Intelligence

Md Tanvirul Alam, Dipkamal Bhushl|arXiv (Cornell University)|2024. 06. 11.

Cybercrime and Law Enforcement Studies인용 수 8

한 줄 요약

CTIBench는 CTI-초점 벤치마크를 도입하며 CTI-MCQ, CTI-RCM, CTI-VSP, CTI-TAA 과제로 LLM의 사이버 위협 인텔리전스에 대한 지식, 추론 및 문제 해결 능력을 평가합니다.

ABSTRACT

Cyber threat intelligence (CTI) is crucial in today's cybersecurity landscape, providing essential insights to understand and mitigate the ever-evolving cyber threats. The recent rise of Large Language Models (LLMs) have shown potential in this domain, but concerns about their reliability, accuracy, and hallucinations persist. While existing benchmarks provide general evaluations of LLMs, there are no benchmarks that address the practical and applied aspects of CTI-specific tasks. To bridge this gap, we introduce CTIBench, a benchmark designed to assess LLMs' performance in CTI applications. CTIBench includes multiple datasets focused on evaluating knowledge acquired by LLMs in the cyber-threat landscape. Our evaluation of several state-of-the-art models on these tasks provides insights into their strengths and weaknesses in CTI contexts, contributing to a better understanding of LLM capabilities in CTI.

연구 동기 및 목표

CTI-MCQ 지식 데이터세트를 사용하여 LLM의 CTI 표준, 위협 및 모범 사례에 대한 이해도 평가.
CTI-RCM( CVE-CWE 매핑) 및 CTI-VSP( CVSS 예측) 를 통한 실용적 CTI 추론 및 문제 해결 평가.
실제 위협 보고서를 사용하여 위협 행위자 귀속 추론 테스트(CTI-TAA).
공개적으로 사용 가능한 데이터셋 및 코드를 제공하여 CTI-focused LLM 벤치마킹을 가능하게 한다.

제안 방법

NIST, MITRE, GDPR, STIX/TAXII, CAPEC, CWE, ATT&CK 소스로부터 CTI-MCQ 데이터셋 작성; GPT-4o로 ~3000개 문제를 생성하고 최종 2500개 문제로 수동 검증.
NVD 데이터를 활용하여 CVE 설명을 CWE 항목에 매핑하는 CTI-RCM 설계; 2024년 취약점 1,000개를 CWE 매핑과 함께 샘플링.
취약점 설명에서 CVSS v3 Base String을 예측하여 CTI-VSP 작성(2024년 CVE 설명 1000개 사용); 예측으로부터 CVSS 점수 계산.
50개 위협 보고서로 CTI-TAA 데이터셋 개발; 행위자 언급 제거 및 LLM에게 행위자 귀속 작업 수행; 결과를 수동으로 검증.

실험 결과

연구 질문

RQ1LLM이 CTI 표준 및 프레임워크에 기반한 CTI 특화 지식 질문에 정확히 답할 수 있는가?
RQ2LLM이 CVE 설명을 CWE 범주로 매핑(근본 원인 매핑)하고 설명으로부터 CVSS 심각도 예측에 얼마나 잘 수행하는가?
RQ3부분적이거나 모호한 데이터가 주어졌을 때 LLM이 위협 보고서를 위협 행위자에 귀속시킬 수 있는가?
RQ4모델 크기와 유형이 CTI 이해, 추론 및 문제 해결에 어떤 영향을 미치는가?

주요 결과

모델	CTI-MCQ (정확도)	CTI-RCM (정확도)	CTI-VSP (MAD)	CTI-TAA 정확	CTI-TAA 그럴듯함
ChatGPT-4	71.0	72.0	1.31	52	86
ChatGPT-3.5	54.1	67.2	1.57	44	62
Gemini-1.5	65.4	66.6	1.09	38	74
LLAMA3-70B	65.7	65.9	1.83	52	80
LLAMA3-8B	61.3	44.7	1.91	28	36

GPT-4는 CTI-VSP를 제외한 대부분의 과제에서 다른 모델을 일반적으로 능가하지만 CTI-VSP에서 Gemini-1.5가 가장 강력하다.
LLM 성능은 CTI-RCM 및 CTI-VSP에서 더 긴 CVE 설명이 일정 부분까지는 향상되지만, 입력이 매우 길어지면 결과가 악화될 수 있다.
CTI-MCQ 정확도는 출처에 따라 달라진다; CWE 질문은 ATT&CK 기반 항목보다 여러 모델에서 더 쉬웠으며, GPT-4는 CWE 항목에서 최대 75.65%를 달성했다.
CTI-RCM 결과는 대부분의 모델에서 더 긴 설명이 정확도를 높이지만 LLAMA-8B를 제외하고 2021 CVE 데이터는 2024 데이터보다 약간 낮은 성능을 보인다.
CTI-VSP 결과는 모델이 일부 기본 메트릭(AV, AC, UI)을 가장 신뢰성 있게 예측하지만 PR, S, C, I에서 어려움을 겪고 점수를 과대추정하는 경향이 있다.
CTI-TAA는 더 큰 모델이 더 작은 모델보다 위협 행위자 귀속을 더 자주 올바르게 수행하며, 데이터가 제한적일 때도 일부 그럴듯한 귀속이 가능하다는 것을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.