[논문 리뷰] LLM4Vuln: A Unified Evaluation Framework for Decoupling and Enhancing LLMs' Vulnerability Reasoning
본 논문은 지식 검색, 맥락 보강, 프롬프트 설계로부터 LLM 취약점 추론을 분리하는 모듈형 프레임워크 LLM4Vuln과 6개의 LLM을 Solidity, Java, C/C++의 3개 언어에서 147개의 실증 취약점과 147개의 비취약 케이스를 포함한 3,528개의 제어된 시나리오로 평가하는 다언어 취약점 지식 벤치마크 UniVul을 도입합니다.
Large language models (LLMs) have demonstrated significant potential in various tasks, including those requiring human-level intelligence, such as vulnerability detection. However, recent efforts to use LLMs for vulnerability detection remain preliminary, as they lack a deep understanding of whether a subject LLM's vulnerability reasoning capability stems from the model itself or from external aids such as knowledge retrieval and tooling support. In this paper, we aim to decouple LLMs' vulnerability reasoning from other capabilities, such as vulnerability knowledge adoption, context information retrieval, and advanced prompt schemes. We introduce LLM4Vuln, a unified evaluation framework that separates and assesses LLMs' vulnerability reasoning capabilities and examines improvements when combined with other enhancements. To support this evaluation, we construct UniVul, the first benchmark that provides retrievable knowledge and context-supplementable code across three representative programming languages: Solidity, Java, and C/C++. Using LLM4Vuln and UniVul, we test six representative LLMs (GPT-4.1, Phi-3, Llama-3, o4-mini, DeepSeek-R1, and QwQ-32B) for 147 ground-truth vulnerabilities and 147 non-vulnerable cases in 3,528 controlled scenarios. Our findings reveal the varying impacts of knowledge enhancement, context supplementation, and prompt schemes. We also identify 14 zero-day vulnerabilities in four pilot bug bounty programs, resulting in $3,576 in bounties.
연구 동기 및 목표
- LLM의 내부 능력을 이해하기 위해 취약점 추론을 외부 도구(지식 검색, 맥락, 프롬팅)로부터 분리합니다.
- 표준화된 평가를 위해 재검색 가능한 취약점 지식 베이스와 맥락 보강 가능한 코드를 제공합니다.
- 지식, 맥락, 프롬프트가 언어 및 모델별로 취약점 탐지에 미치는 영향을 정량화합니다.
- 실전 활용 가능성을 검증하기 위한 파일럿 버그 바운티 연구를 통해 실제 활용도를 입증합니다.
제안 방법
- 취약점 탐지 작업을 R = fL(T, K, C, P, I)로 형식화하여 모델 능력과 개선 효과를 분리합니다.
- 통제된 평가와 개선을 위한 네 가지 플러그인 가능한 구성요소(지식 검색, 맥락 보강, 프롬프트 설계, 지시 준수)를 도입합니다.
- 지식과 맥락 보강 가능한 코드를 포함한 Solidity, Java, C/C++의 UniVul 벤치마크를 구축하여 지식 및 테스트 세트를 구성합니다.
- 지식 검색과 요약 기반 매칭을 가능하게 하기 위해 벡터 데이터베이스(FAISS)와 요약 기법을 활용합니다.
- 표준화된 평가 지표(TP, TN, FP, FN, FPt)를 생성하고 정밀도/재현율을 계산하기 위해 GPT-4.1 보조 주석 생성 파이프라인을 사용합니다.
- 6개의 LLM(GPT-4.1, Phi-3, Llama-3, o4-mini, DeepSeek-R1, QwQ-32B)을 3개 언어와 3,528개의 시나리오에서 평가합니다.
실험 결과
연구 질문
- RQ1언론의 취약점 추론이 모델 자체에서 나오는 비중은 외부 보조에 의해 얼마나 좌우되나요?
- RQ2지식 강화, 맥락 보강, 프롬프트 설계의 한계 외의 효용성은 취약점 추론에 어떤 차이가 있나요?
- RQ3전통적 기반 모델과 딥 러닝 추론 모델이 외부 보강을 활용하는 데 있어 어떤 차이를 보이나요?
- RQ4LLM4Vuln이 여러 언어와 모델 유형에서 취약점 추론을 신뢰성 있게 평가할 수 있나요?
- RQ5제로데이 취약점을 식별하는 데 이 프레임워크의 실전 활용 가능성은 어느 정도인가요?
주요 결과
- 지식 강화는 언어에 따라 이질적인 효과를 보이며, 전통적 모델의 경우 솔리디티에서 상당한 이득이 있지만 자바와 C/C++에서는 제한적이거나 역효과를 낳습니다.
- 맥락 보강은 일관된 개선을 제공하지 못하며, 전통적 모델은 맥락에서 이득을 볼 수 있는 반면 딥 추론 모델은 때때로 맥락 없이 더 나은 성능을 보입니다.
- CoT 프롬프팅은 모델 전반에서 정밀도를 높이고 거짓 양성을 줄이며, 딥 추론 모델은 CoT 프롬프트 하에서 더 안정적인 성능을 보입니다.
- 전통적 기반 모델은 외부 보강의 혜택을 더 많이 받는 반면, 딥 추론 모델은 초기 취약점 추론에서 더 강한 성능을 보이는 경향이 있습니다.
- 상위 구성으로 수행된 파일럿 버그 바운티 연구에서 14개의 진정한 취약점을 식별하고 보상으로 3,576달러를 얻어 실전 활용 가능성을 검증했습니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.