QUICK REVIEW

[논문 리뷰] You Autocomplete Me: Poisoning Vulnerabilities in Neural Code Completion

Roei Schuster, Congzheng Song|arXiv (Cornell University)|2021. 01. 01.

Adversarial Robustness in Machine Learning인용 수 47

한 줄 요약

이 논문은 공개 코드 리포지토리에서 훈련된 신경망 기반 코드 자동완성기들이 데이터 및 모델 오염 공격에 취약하다는 것을 입증한다. 악성 코드를 훈련 데이터에 삽입하거나 모델을 미세조정함으로써 공격자는 제안하는 코드 추천을 악성 패턴(예: AES의 ECB 모드 또는 SSLv3 사용)으로 조작할 수 있으며, 특히 타겟 공격의 경우 특정 코드베이스에서 이러한 불안전한 추천이 발생할 가능성을 크게 높일 수 있다.

ABSTRACT

Code autocompletion is an integral feature of modern code editors and IDEs. The latest generation of autocompleters uses neural language models, trained on public open-source code repositories, to suggest likely (not just statically feasible) completions given the current context. We demonstrate that neural code autocompleters are vulnerable to poisoning attacks. By adding a few specially-crafted files to the autocompleter's training corpus (data poisoning), or else by directly fine-tuning the autocompleter on these files (model poisoning), the attacker can influence its suggestions for attacker-chosen contexts. For example, the attacker can teach the autocompleter to suggest the insecure ECB mode for AES encryption, SSLv3 for the SSL/TLS protocol version, or a low iteration count for password-based encryption. Moreover, we show that these attacks can be targeted: an autocompleter poisoned by a targeted attack is much more likely to suggest the insecure completion for files from a specific repo or specific developer. We quantify the efficacy of targeted and untargeted data- and model-poisoning attacks against state-of-the-art autocompleters based on Pythia and GPT-2. We then evaluate existing defenses against poisoning attacks and show that they are largely ineffective.

연구 동기 및 목표

신경망 기반 코드 자동완성기가 코드 추천을 조작하는 오염 공격에 취약한지 조사하기.
훈련 데이터에 악성 파일을 추가하는 데이터 오염 공격과 악성 파일로 모델을 미세조정하는 모델 오염 공격이 자동완성기 행동에 영향을 미치는지 가능성 평가하기.
특정 코드 리포지토리 또는 특정 개발자를 대상으로 불안전한 패턴으로 추천을 편향시키는 타겟 공격의 효과성 평가하기.
기존의 오염 공격 방어 기법들이 신경망 기반 코드 자동완성기에 대해 얼마나 효과적인지 평가하기.

제안 방법

저자들은 Pythia와 GPT-2 기반의 최신 코드 자동완성기를, 정교하게 설계된 악성 파일이 포함된 코드 리포지토리에서 훈련한다.
특정 코드 패턴(예: 불안전한 AES 또는 SSL 사용)을 포함한 파일을 훈련 데이터에 삽입하여 비타겟 및 타겟 공격을 수행한다.
모델 오염 공격의 경우, 소수의 악성 파일로 사전 훈련된 자동완성기를 미세조정하여 생성 행동에 영향을 미친다.
공격 성공률을 측정하기 위해 특정 코드 컨텍스트에 대한 불안전한 추천 빈도를 평가한다.
다양한 공격 유형(비타겟 대비 타겟)과 모델 버전 간의 공격 성공률를 비교한다.
이러한 오염 공격에 대비한 기존 방어 기법의 효능을 평가하여 내구성 여부를 검토한다.

실험 결과

연구 질문

RQ1데이터 오염을 통해 신경망 기반 코드 자동완성기가 불안전한 코드 패턴을 추천하도록 조작할 수 있는가?
RQ2특정 코드베이스나 특정 개발자를 대상으로 한 타겟 오염 공격이 불안전한 패턴으로 추천을 편향시키는 데 얼마나 효과적인가?
RQ3기존의 방어 조치들이 신경망 기반 코드 자동완성기의 오염 공격에 얼마나 효과적으로 대응하는가?
RQ4데이터 오염과 모델 오염이 자동완성기 행동에 영향을 미치는 데 성공률가 어떻게 비교되는가?
RQ5고성공률의 오염 공격을 달성하기 위해 필요한 최소한의 악성 파일 수는 얼마인가?

주요 결과

소수의 악성 파일을 훈련 코퍼스에 삽입하기만 해도 신경망 기반 코드 자동완성기를 성공적으로 오염시킬 수 있다.
타겟 오염 공격은 특정 리포지토리나 특정 개발자를 대상으로 불안전한 코드 패턴(예: ECB 모드, SSLv3)을 추천할 가능성을 크게 높인다.
미세조정을 통한 모델 오염은 최소한의 입력으로도 높은 공격 성공률를 달성하여, 미세조정된 모델의 취약성을 보여준다.
특정 시나리오에서 불안전한 패턴(예: ECB 모드, 암호 해시의 낮은 반복 수)을 추천하는 공격 성공률는 90% 이상을 초과한다.
기존의 오염 공격 방어 기법들은 제안된 데이터 및 모델 오염 기법에 대해 대부분 효과적이지 않다.
데이터 오염과 모델 오염의 조합은 실제 개발 환경에서 신경망 기반 코드 자동완성기의 보안에 대해 현실적이고 확장 가능한 위협을 제기한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.