[論文レビュー] LLMs in Code Vulnerability Analysis: A Proof of Concept
研究はオープンソースのコード志向型と一般目的の LLM を、Big-Vul および VulRepair データセットを用いて、脆弱性検出、重大度およびアクセス複雑性予測、修正生成を評価し、微調整とプロンプトベース手法を比較する。
Context: Traditional software security analysis methods struggle to keep pace with the scale and complexity of modern codebases, requiring intelligent automation to detect, assess, and remediate vulnerabilities more efficiently and accurately. Objective: This paper explores the incorporation of code-specific and general-purpose Large Language Models (LLMs) to automate critical software security tasks, such as identifying vulnerabilities, predicting severity and access complexity, and generating fixes as a proof of concept. Method: We evaluate five pairs of recent LLMs, including both code-based and general-purpose open-source models, on two recognized C/C++ vulnerability datasets, namely Big-Vul and Vul-Repair. Additionally, we compare fine-tuning and prompt-based approaches. Results: The results show that fine-tuning uniformly outperforms both zero-shot and few-shot approaches across all tasks and models. Notably, code-specialized models excel in zero-shot and few-shot settings on complex tasks, while general-purpose models remain nearly as effective. Discrepancies among CodeBLEU, CodeBERTScore, BLEU, and ChrF highlight the inadequacy of current metrics for measuring repair quality. Conclusions: This study contributes to the software security community by investigating the potential of advanced LLMs to improve vulnerability analysis and remediation.
研究の動機と目的
- コード固有モデルと一般目的モデルのどちらが脆弱性分析タスクを最も効果的に支援するかを評価する。
- 微調整とゼロショットおよび少数ショット prompting アプローチを比較する。
- オープンソース LLM を、コード修正のための認識済み指標とデータセットに対して評価する。
- 修正評価における現在のコード類似性指標の信頼性を調査する。
提案手法
- リーダーボードからコード固有と一般目的のオープンソース LLM の五組を選択する。
- 検出、重大度予測、アクセス複雑性分類、及び修正生成の三つのタスクカテゴリでモデルを評価する。
- Big-Vul および VulRepair データセットを用いてモデルを訓練・評価する。
- 定義されたハイパーパラメータで LoRA PEFT を用いた微調整を適用する。
- ゼロショット、少数ショット、微調整した性能をタスクとモデル間で比較する。

実験結果
リサーチクエスチョン
- RQ1RQ1: 脆弱性検出における微調整はプロンプトベース手法と比較してどうか。
- RQ2RQ2: コード固有モデルはタスクとアプローチ全体で一般目的モデルを一貫して上回るか。
- RQ3RQ3: どのモデル対がタスクとアプローチ全体で優れた性能を示すか。
- RQ4RQ4: 既存のコード類似性指標はコード修正生成の評価に適切か。
主な発見
- 微調整はタスクとモデルを問わず、ゼロショットおよび少数ショット手法を一貫して上回る。
- コード固有モデルが普遍的に一般目的モデルを上回るとは限らず、パフォーマンスはタスクと手法に依存する。
- Llama および DeepSeek のペアは設定を問わず最も強力なパフォーマーの中にあり、全タスクで単一の勝者は不在。
- CodeBERTScore と Rouge-L はタスクを通じて比較的ロバストだが、BLEU-4 や CodeBLEU はコード修正評価では信頼性が低いことがある。
- ゼロショットの結果は多くの修正評価で少数ショットよりも弱く、指標の不一致は評価の妥当性に懸念を生む。
- 本研究はオープンソース LLM が脆弱性ワークフローに与える価値と限界のベースラインを提供する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。