QUICK REVIEW

[논문 리뷰] Learning to Repair Software Vulnerabilities with Generative Adversarial Networks

Jacob Harer, Onur Özdemir|arXiv (Cornell University)|2018. 05. 18.

Advanced Malware Detection Techniques참고 문헌 7인용 수 32

한 줄 요약

이 논문은 쌍화된 훈련 데이터가 필요 없이, 새로운 손실 함수를 통해 정확한 코드 수정을 강제하는 조건부 NMT 생성기와 함께 GAN 기반 접근법을 제안한다. 이 방법은 쌍화되지 않은 데이터를 사용함에도 불구하고 코드 수정 벤치마크에서 지도 학습 기반 seq2seq 모델에 근접한 성능을 달성하여 강력한 일반화 능력과 다른 시퀀스 보정 작업에의 적용 가능성을 입증한다.

ABSTRACT

Motivated by the problem of automated repair of software vulnerabilities, we propose an adversarial learning approach that maps from one discrete source domain to another target domain without requiring paired labeled examples or source and target domains to be bijections. We demonstrate that the proposed adversarial learning approach is an effective technique for repairing software vulnerabilities, performing close to seq2seq approaches that require labeled pairs. The proposed Generative Adversarial Network approach is application-agnostic in that it can be applied to other problems similar to code repair, such as grammar correction or sentiment translation.

연구 동기 및 목표

쌍화된 훈련 데이터가 없는 상황에서 자동 소프트웨어 취약점 수정 문제를 해결하기 위해.
일对일 레이블링된 예시가 필요 없이 취약한 코드를 보안 코드로 매핑하는 방법을 개발하기 위해.
문법 교정이나 감성 번역과 같은 응용에 관계없이 시퀀스 보정을 가능하게 하기 위해 적대적 학습을 활용하기 위해.
코드 시퀀스에서 이산 출력의 비가역성으로 인한 GAN 훈련 문제를 해결하기 위해.
새로운 손실 함수를 통해 입력 코드에 조건을 강제하여 생성된 수정 사항이 의미적으로 및 문법적으로 유효함을 보장하기 위해.

제안 방법

GAN의 생성기로 조건부 NMT 생성기를 사용하며, 표준 음성 가능성 손실 대신 적대적 손실로 훈련한다.
판별기는 실제 수정된 코드와 생성된 수정 사항을 구분하도록 훈련되어 분포 일치를 위한 대체 손실을 제공한다.
이산적 코드 생성의 비가역성 문제를 다루기 위해 예측된(샘플링되지 않은) 출력에 대해 소프트 레이블 판별기를 운영한다.
입력 코드에 대한 충실도를 강제하고 수정 품질을 향상시키기 위해 두 가지 새로운 생성기 손실 함수인 $\mathcal{L}_{\textit{AUTO}}$ 및 $\mathcal{L}_{\textit{FREQ}}$ 를 도입한다.
훈련 난이도를 점진적으로 증가시키는 커리큘럼 학습을 적용하여 수렴성과 성능을 향상시킨다.
BLEU-4, 시퀀스 정확도, 정확도 메트릭을 사용하여 쌍화된 데이터와 쌍화되지 않은 데이터 모두를 포함한 코드 수정 데이터셋에서 평가한다.

실험 결과

연구 질문

RQ1쌍화된 훈련 예제가 없는 GAN 기반 접근법이 소프트웨어 취약점 수정을 효과적으로 학습할 수 있는가?
RQ2비가역성으로 인해 이산적 코드 시퀀스에서의 적대적 훈련이 소프트 레이블 판별기를 사용해도 일반화 성능가능한가?
RQ3제안된 생성기 손실 함수가 입력 코드에 대한 충실도와 수정 정확도를 얼마나 향상시키는가?
RQ4쌍화되지 않은 데이터에서의 성능가 지도 학습 기반 seq2seq 기준선과 비교해 볼 때 어떻게 되는가?
RQ5이 방법은 소프트웨어 수정을 넘어서 다른 시퀀스 보정 작업(예: 문법 오류 수정, 감성 번역 등)으로 일반화 가능한가?

주요 결과

커리큘럼 학습과 $\mathcal{\text{FREQ}}$ 정규화를 적용한 제안된 GAN 모델은 쌍화되지 않은 테스트 세트에서 BLEU-4 점수 90.3을 기록했으며, seq2seq 기준선(91.3)에 근접한 성능를 보였다.
Base + Cur + Freq 모델은 시퀀스 정확도 98.2%와 순서 정확도 99.1%를 달성하여 높은 수정 충실도를 입증했다.
훈련 데이터의 절반만 사용하고도 쌍화된 예제가 전혀 없었음에도 불구하고, 쌍화되지 않은 GAN 모델은 테스트 세트에서 BLEU-4 점수 81.3%를 기록하여 강력한 일반화 능력을 보였다.
실제 세계의 취약점, 예를 들어 함수 호출 시 잘못된 인자 수나 더블 프리 오류를 성공적으로 수정했으며, 표 2에 나타나 있다.
기본 GAN 모델보다 성능이 뛰어나고 지도 학습 기반 seq2seq 모델에 근접한 성능를 기록하여, 낮은 데이터 및 쌍화되지 않은 환경에서의 효과성을 입증했다.
응용에 관계없이 설계된 점을 고려할 때, 이 방법은 코드 수정 이외에도 문법 오류 수정 및 감성 번역 등 다양한 시퀀스 보정 작업에 적용 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.