[논문 리뷰] LLMs in Code Vulnerability Analysis: A Proof of Concept
본 논문은 Big-Vul 및 VulRepair 데이터세트를 사용하여 취약점 탐지, 심각도 및 접근 복잡도 예측, 그리고 수정 생성에 대해 코드 중심의 오픈 소스 LLM과 일반용 LLM을 평가하고, 파인튜닝과 프롬프트 기반 방법을 비교한다.
Context: Traditional software security analysis methods struggle to keep pace with the scale and complexity of modern codebases, requiring intelligent automation to detect, assess, and remediate vulnerabilities more efficiently and accurately. Objective: This paper explores the incorporation of code-specific and general-purpose Large Language Models (LLMs) to automate critical software security tasks, such as identifying vulnerabilities, predicting severity and access complexity, and generating fixes as a proof of concept. Method: We evaluate five pairs of recent LLMs, including both code-based and general-purpose open-source models, on two recognized C/C++ vulnerability datasets, namely Big-Vul and Vul-Repair. Additionally, we compare fine-tuning and prompt-based approaches. Results: The results show that fine-tuning uniformly outperforms both zero-shot and few-shot approaches across all tasks and models. Notably, code-specialized models excel in zero-shot and few-shot settings on complex tasks, while general-purpose models remain nearly as effective. Discrepancies among CodeBLEU, CodeBERTScore, BLEU, and ChrF highlight the inadequacy of current metrics for measuring repair quality. Conclusions: This study contributes to the software security community by investigating the potential of advanced LLMs to improve vulnerability analysis and remediation.
연구 동기 및 목표
- 코드 특화 LLM이 취약점 분석 작업을 가장 잘 지원하는지, 아니면 범용 LLM이 더 나은지 평가한다.
- 제로샷 및 소수샷 프롬프트 방식과 파인튜닝을 비교한다.
- 코드 수정에 대한 인정된 지표와 데이터세트를 기준으로 오픈 소스 LLM을 평가한다.
- 수리 평가에서 현재의 코드 유사도 지표의 신뢰성을 조사한다.
제안 방법
- 리더보드에서 코드 특화 LLM과 일반 목적 오픈 소스 LLM의 다섯 쌍을 선정한다.
- 세 가지 작업 범주(탐지, 심각도 예측, 접근 복잡도 분류)와 더불어 수정 생성에 대해 모델을 평가한다.
- Big-Vul 및 VulRepair 데이터세트를 사용하여 모델을 학습하고 평가한다.
- 정의된 하이퍼파라미터로 LoRA PEFT를 파인튜닝에 적용한다.
- 작업 및 모델 전반에서 제로샷, 소샷, 파인튜닝 성능을 비교한다.

실험 결과
연구 질문
- RQ1RQ1: 취약점 탐지에서 프롬프트 기반 접근법과 파인튜닝은 어떻게 비교되는가?
- RQ2RQ2: 코드 특화 모델이 작업과 접근법 전반에 걸쳐 일관되게 일반 목적 모델보다 우수한가?
- RQ3RQ3: 작업 및 접근법 전반에서 우수한 성능을 보이는 모델 쌍은 어느 쌍인가?
- RQ4RQ4: 기존 코드 유사도 지표는 코드 수정 생성을 평가하는 데 적합한가?
주요 결과
- 파인튜닝은 모든 작업과 모델에서 제로샷 및 소샷 접근방식을 일관되게 능가한다.
- 코드 특화 모델이 항상 일반 목적 모델보다 우수하지는 않으며, 성능은 작업과 방법에 따라 다르다.
- Llama 및 DeepSeek 쌍은 여러 설정에서 강력한 성능을 보이는 편이며, 모든 작업에서 단일 최강자는 없다.
- CodeBERTScore와 Rouge-L은 작업 전반에서 상대적으로 강인한 반면, BLEU-4와 CodeBLEU는 코드 수정 평가에서 신뢰성이 떨어질 수 있다.
- 제로샷 결과는 대부분의 수정 평가에서 소샷보다 약하며, 지표 간 차이는 평가 타당성에 대한 우려를 높인다.
- 본 연구는 취약점 워크플로우에서 오픈 소스 LLM의 가치와 한계를 시사하는 기준선을 제공한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.