QUICK REVIEW

[논문 리뷰] Devign: Effective Vulnerability Identification by Learning Comprehensive Program Semantics via Graph Neural Networks

Yaqin Zhou, Shangqing Liu|arXiv (Cornell University)|2019. 09. 08.

Software Engineering Research인용 수 151

한 줄 요약

Devign은 합성 코드 표현(AST, CFG, DFG 및 순차 엣지)을 갖는 그래프 신경망을 사용해 실제 C 프로젝트의 취약 함수들을 탐지하고, 기준 방법들을 능가하며 CVE에의 적용 가능성을 보여준다.

ABSTRACT

Vulnerability identification is crucial to protect the software systems from attacks for cyber security. It is especially important to localize the vulnerable functions among the source code to facilitate the fix. However, it is a challenging and tedious process, and also requires specialized security expertise. Inspired by the work on manually-defined patterns of vulnerabilities from various code representation graphs and the recent advance on graph neural networks, we propose Devign, a general graph neural network based model for graph-level classification through learning on a rich set of code semantic representations. It includes a novel Conv module to efficiently extract useful features in the learned rich node representations for graph-level classification. The model is trained over manually labeled datasets built on 4 diversified large-scale open-source C projects that incorporate high complexity and variety of real source code instead of synthesis code used in previous works. The results of the extensive evaluation on the datasets demonstrate that Devign outperforms the state of the arts significantly with an average of 10.51% higher accuracy and 8.68\% F1 score, increases averagely 4.66% accuracy and 6.37% F1 by the Conv module.

연구 동기 및 목표

Flat한 코드 표현을 넘어 광범위한 프로그램 의미를 학습하여 자동 취약성 탐지를 추진한다.
다양한 취약성 패턴을 포착하기 위해 여러 코드 표현을 융합하는 그래프 기반 모델을 제안한다.
Conv-enabled 게이티드 그래프 순환 네트워크가 baselines보다 실제 데이터셋에서 더 높은 정확도와 F1를 달성함을 보여준다.
취약성 식별 모델 평가를 위해 네 대의 대형 C 라이브러리에서 수동으로 라벨링된 데이터셋을 공유한다.

제안 방법

함수를 AST, CFG, DFG(간소화된 DFG_R/DFG_W/DFG_C) 및 자연 코드 시퀀스 간의 결합 그래프 g(V, X, A)로 인코딩한다.
게이티드 그래프 순환 네트워크를 사용해 다중 유형의 엣지를 통한 노드 특징의 전파와 인코딩을 시간 스텝 T로 수행하고 최종 노드 임베딩 H^(T)을 얻는다.
연속 1차卷積과 최대 풀링을 포함한 Conv 모듈로 [H^(T), X] 및 최종 노드 특징으로부터 그래프 수준 특징을 추출하고, 이어서 MLP와 다른 MLP와의 페어와이즈 곱을 거쳐 시그모이드 그래프 수준 예측을 얻는다.
초기 노드 특징은 단어 임베딩(word2vec 기반 코드 임베딩)과 타입 인코딩을 연결(concatenation)하여 표현하고, 교차 엔트로피 손실 및 정규화를 포함한 끝-투-끝 학습으로 훈련한다.
다양한 취약성 신호를 포착하기 위해 AST, CFG, DFG(LastRead/LastWrite/ComputedFrom으로 축소), 및 자연 코드 시퀀스로 구성된 합성 코드 그래프를 구성한다.
Devign을 Linux 커널, QEMU, Wireshark, FFmpeg의 수동 라벨링 데이터에서 학습시키고, XGBoost, BiLSTM 변형, CNN, Gated Graph Recurrent Network(GGRN) 등을 포함한 베이스라인과의 비교를 평가한다.

실험 결과

연구 질문

RQ1Devign이 실제 오픈 소스 프로젝트에서 최신 학습 기반 취약성 식별 방법과 어떻게 비교되는가?
RQ2Conv 모듈이 단순 노드 집계로 구성된 GGRN보다 그래프 수준 분류를 향상시키는가?
RQ3합성 그래프(다중 표현 그래프)가 단일 엣지 표현보다 취약성 탐지에 우수한가?
RQ4불균형 데이터 및 최신 CVE에 대해 Devign은 정적 분석 도구와 비교해 어떤 성능을 보이는가?
RQ5합성 코드 의미를 이용한 크로스-프로젝트 취약성 식별의 영향은 무엇인가?

주요 결과

Devign (Composite)은 네 개 데이터세트에서 평균적으로 기저 방법 대비 정확도 10.51%, F1은 8.68% 더 높다.
Conv 모듈은 단순한 노드 집계로 구성된 GGRN 대비 평균 정확도 4.66%, F1 6.37% 향상을 얻는다.
합성 그래프를 사용하는 것이 일반적으로 단일 엣지 그래프보다 그래프 수준 예측을 향상시키며, 평균 F1 이점이 약 2.69%이며 특정 엣지 타입에서 더 큰 이점을 보인다.
데이터가 불균형일 때 Devign은 F1에서 정적 분석기(Cppcheck, Flawfinder, 비공개 상용 도구)보다 상당한 우위(본문에 27.99로 보고된 수치)로 성능을 보인다.
40개의 최신 CVE에 대해 테스트 시 Devign은 평균 74.11% 정확도를 달성하여 제로데이 취약성 탐지에 실용적 응용 가능성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.