QUICK REVIEW

[논문 리뷰] BadNL: Backdoor Attacks Against NLP Models

Xiaoyi Chen, Ahmed Salem|arXiv (Cornell University)|2020. 06. 01.

Adversarial Robustness in Machine Learning참고 문헌 7인용 수 83

한 줄 요약

이 논문은 자연어 처리(NLP) 분야에서 백도어 공격에 대한 첫 번째 체계적인 연구를 제시하며, 모델 유틸리티에 미치는 영향을 최소화하면서도 매우 효과적인 백도어 오염을 가능하게 하는 세 가지 새로운 트리거 유형—문자 수준, 단어 수준, 문장 수준—을 도입한다. 이 공격은 IMDB, Amazon, SST-2 데이터셋 전반에서 원래 모델 정확도가 1.3% 미만으로 감소하는 동안 백도어 성공률이 거의 완벽한 100%에 이를 수 있다.

ABSTRACT

Machine learning (ML) has progressed rapidly during the past decade and ML models have been deployed in various real-world applications. Meanwhile, machine learning models have been shown to be vulnerable to various security and privacy attacks. One attack that has attracted a great deal of attention recently is the backdoor attack. Specifically, the adversary poisons the target model training set, to mislead any input with an added secret trigger to a target class, while keeping the accuracy for original inputs unchanged. Previous backdoor attacks mainly focus on computer vision tasks. In this paper, we present the first systematic investigation of the backdoor attack against models designed for natural language processing (NLP) tasks. Specifically, we propose three methods to construct triggers in the NLP setting, including Char-level, Word-level, and Sentence-level triggers. Our Attacks achieve an almost perfect success rate without jeopardizing the original model utility. For instance, using the word-level triggers, our backdoor attack achieves 100% backdoor accuracy with only a drop of 0.18%, 1.26%, and 0.19% in the models utility, for the IMDB, Amazon, and Stanford Sentiment Treebank datasets, respectively.

연구 동기 및 목표

자연어 처리(NLP) 모델에서 백도어 공격의 가능성과 효과성을 조사하는 것.
기존의 컴퓨터 비전에 초점된 방법들과는 달리, NLP 환경에서 도전적으로 작동하고 효과적인 트리거 유형을 식별하고 개발하는 것.
백도어 트리거가 정제된 입력에서의 성능에 미치는 영향을 평가하여, 원래 성능이 최소한으로 저하되도록 보장하는 것.
백도어 공격이 모델의 원래 정확도를 손상시키지 않으면서도 NLP에서 매우 효과적으로 작동할 수 있음을 보여주는 것.

제안 방법

문자 수준(특정 문자 삽입), 단어 수준(특정 단어 삽입), 문장 수준(완전한 문장을 트리거로 추가)이라는 세 가지 서로 다른 트리거 유형을 제안한다.
입력에 트리거를 포함하고 대상 클래스로 레이블링된 오염된 데이터셋을 기반으로 타겟 NLP 모델을 훈련시킨다.
IMDB, Amazon, SST-2와 같은 표준 NLP 데이터셋에서 표준 NLP 모델(LSTM, BERT 등)을 미세조정하여 사용한다.
특정 트리거 패턴이 입력에 나타날 때에만 백도어가 작동하도록 하되, 정제된 입력에서는 정상적인 동작을 유지한다.
모델 유틸리티를 유지하기 위해 훈련 데이터에 소수의 오염된 샘플을 삽입하는 오염 전략을 사용한다.
효과성과 은밀함을 측정하기 위해 백도어 정확도(트리거가 포함된 입력에서의 성공률)와 원래 정확도(정제된 입력에서의 성능)를 모두 평가한다.

실험 결과

연구 질문

RQ1컴퓨터 비전과는 구조적 차이가 있는 NLP 모델에 대해 백도어 공격가 효과적으로 적용될 수 있는가?
RQ2문자 수준, 단어 수준, 문장 수준 트리거 중 어느 것이 NLP 백도어 공격에서 가장 효과적이고 은밀한가?
RQ3백도어 공격이 정제된 입력에서 원래 모델의 성능에 얼마나 큰 영향을 미치는가?
RQ4트리거가 포함된 입력에서 높은 성공률을 달성하면서도, 비트리거 입력에서는 높은 정확도를 유지할 수 있는가?

주요 결과

제안된 백도어 공격은 IMDB, Amazon, 스탠포드 감성 트리뱅크 데이터셋에서 100%의 백도어 정확도를 달성한다.
모델 유틸리티는 최소한으로 영향을 받으며, IMDB 데이터셋에서 정제된 입력에서 정확도가 0.18% 뿐 감소한다.
단어 수준 트리거는 Amazon 데이터셋에서 1.26%의 정확도 감소를 보였지만, 백도어 성공률은 100%를 유지한다.
문장 수준 트리거는 낮은 영향을 미치는 데서 높은 은밀함과 효과성을 보이며, 원래 모델 성능에 거의 영향을 주지 않는다.
문자 수준 트리거는 효과적이지만, 토크나이제이션 또는 서브워드 수준의 교란으로 인해 덜 견고할 수 있다.
전반적으로 이 공격들은 높은 유틸리티와 높은 성공률을 유지하며, NLP에서 백도어 공격의 가능성과 위험성을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.