QUICK REVIEW

[論文レビュー] CTIBench: A Benchmark for Evaluating LLMs in Cyber Threat Intelligence

Md Tanvirul Alam, Dipkamal Bhushl|arXiv (Cornell University)|Jun 11, 2024

Cybercrime and Law Enforcement Studies被引用数 8

ひとこと要約

CTIBenchはCTIに焦点を当てたベンチマークを導入し、CTI-MCQ、CTI-RCM、CTI-VSP、CTI-TAAタスクを用いて、サイバー脅威情報におけるLLMの知識、推論、問題解決能力を評価します。

ABSTRACT

Cyber threat intelligence (CTI) is crucial in today's cybersecurity landscape, providing essential insights to understand and mitigate the ever-evolving cyber threats. The recent rise of Large Language Models (LLMs) have shown potential in this domain, but concerns about their reliability, accuracy, and hallucinations persist. While existing benchmarks provide general evaluations of LLMs, there are no benchmarks that address the practical and applied aspects of CTI-specific tasks. To bridge this gap, we introduce CTIBench, a benchmark designed to assess LLMs' performance in CTI applications. CTIBench includes multiple datasets focused on evaluating knowledge acquired by LLMs in the cyber-threat landscape. Our evaluation of several state-of-the-art models on these tasks provides insights into their strengths and weaknesses in CTI contexts, contributing to a better understanding of LLM capabilities in CTI.

研究の動機と目的

CTI-standard、脅威、ベストプラクティスの理解をCTI-MCQ知識データセットで評価する。
CVE-CWEマッピング（CTI-RCM）およびCVSS予測（CTI-VSP）を通じて実践的なCTI推論と問題解決を評価する。
実世界の脅威レポートを用いて脅威アクターの同定推論をテストする（CTI-TAA）。
CTIに焦点を当てたLLMベンチマークを可能にする公開データセットとコードを提供する。）

提案手法

NIST、MITRE、GDPR、STIX/TAXII、CAPEC、CWE、ATT&CKのソースからCTI-MCQデータセットを作成し、GPT-4oを用いて約3000問を生成し、最終的に2500問へ検証する。
NVDデータを用いてCVEの記述をCWEエントリへマッピングすることでCTI-RCMを設計し、1,000件の脆弱性（2024）とCWEマッピングをサンプリングする。
脆弱性の記述からCVSS v3 Base Stringを予測することでCTI-VSPを作成（1000件の2024年CVE記述を使用）し、予測からCVSSスコアを計算する。
50件の脅威レポートを用意したCTI-TAAデータセットを開発し、アクターの言及を除去してLLMにアクターへ帰属させるようタスクを与え、結果を手動検証する。

実験結果

リサーチクエスチョン

RQ1LLMsはCTI標準とフレームワークに基づくCTI特有の知識質問に正確に答えられるか。
RQ2LLMsはCVEの記述をCWEカテゴリへマッピング（原因根拠のマッピング）し、記述からCVSSの重大度を予測できるか。
RQ3部分的または難読化データを与えられた場合、脅威レポートを脅威アクターへ帰属させることができるか。
RQ4モデルサイズとタイプがCTIの理解、推論、問題解決にどのように影響するか。

主な発見

モデル	CTI-MCQ (Acc)	CTI-RCM (Acc)	CTI-VSP (MAD)	CTI-TAA 正解	CTI-TAA 妥当と推定
ChatGPT-4	71.0	72.0	1.31	52	86
ChatGPT-3.5	54.1	67.2	1.57	44	62
Gemini-1.5	65.4	66.6	1.09	38	74
LLAMA3-70B	65.7	65.9	1.83	52	80
LLAMA3-8B	61.3	44.7	1.91	28	36

GPT-4はCTI-VSPを除くほとんどのタスクで他モデルを上回る傾向があるが、CTI-VSPではGemini-1.5が最も強い。
LLMのパフォーマンスはCTI-RCMおよびCTI-VSPでCVE記述が長くなるにつれて向上するが、入力が非常に長くなると結果が悪化する場合がある。
CTI-MCQの正答率はソースによって変動する；CWEの質問はATT&CKベースの項目よりもいくつかのモデルで容易で、GPT-4はCWE項目で最大75.65%を達成。
CTI-RCMの結果は長い記述がほとんどのモデルで正確さを高めるがLLAMA-8Bを除き、2021年のCVEデータは2024年データよりわずかに低いパフォーマンスを示す。
CTI-VSPの結果はモデルが基礎指標（AV、AC、UI）をある程度予測するのに最も信頼性が高い一方、PR、S、C、Iは難しいとされ、スコアを過大評価する傾向がある。
CTI-TAAは大規模モデルが小規模モデルよりアクターを正しく帰属させることが多く、データが限定的な場合でももっともらしい帰属が見られることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。