QUICK REVIEW

[논문 리뷰] BERT-ATTACK: Adversarial Attack Against BERT Using BERT

Linyang Li, Ruotian Ma|arXiv (Cornell University)|2020. 04. 21.

Adversarial Robustness in Machine Learning참고 문헌 26인용 수 68

한 줄 요약

BERT-ATTACK는 취약 단어를 대체하기 위해 BERT 마스킹 언어 모델을 사용하여 유창하고 의미적으로 보존된 적대적 텍스트를 생성하고, 여러 NLP 작업에서 낮은 섭동으로 높은 공격 성공을 달성합니다.

ABSTRACT

Adversarial attacks for discrete data (such as texts) have been proved significantly more challenging than continuous data (such as images) since it is difficult to generate adversarial samples with gradient-based methods. Current successful attack methods for texts usually adopt heuristic replacement strategies on the character or word level, which remains challenging to find the optimal solution in the massive space of possible combinations of replacements while preserving semantic consistency and language fluency. In this paper, we propose extbf{BERT-Attack}, a high-quality and effective method to generate adversarial samples using pre-trained masked language models exemplified by BERT. We turn BERT against its fine-tuned models and other deep neural models in downstream tasks so that we can successfully mislead the target models to predict incorrectly. Our method outperforms state-of-the-art attack strategies in both success rate and perturb percentage, while the generated adversarial samples are fluent and semantically preserved. Also, the cost of calculation is low, thus possible for large-scale generations. The code is available at https://github.com/LinyangLee/BERT-Attack.

연구 동기 및 목표

NLP 모델에 대한 적대적 텍스트 섭동에 대한 견고한 평가를 동기화한다.
유창성과 의미를 보존하는 고품질 공격을 제안하기 위해 사전 학습된 언어 모델(BERT)을 활용한다.
텍스트 분류 및 자연어 추론 작업에서의 효과를 입증한다.
다른 아키텍처에 대한 적대적 샘플의 전이 가능성과 전이 학습을 통한 모델 강건성 향상을 보인다.

제안 방법

두 단계 프레임워크: 가장 영향력 있는 단어를 식별하고 BERT 마스킹 언어 모델의 맥락 인식 대체어로 교체한다.
대상 모델의 정답 로짓의 감소를 측정하기 위해 각 토큰을 마스킹하고 단어 중요도를 계산하여 후보를 순위화한다.
BERT의 MLM에서 상위-K 예측을 사용하여 선정된 단어를 교체하며, BERT의 BPE 토큰화와의 정렬을 통해 전체 단어와 하위 단어를 모두 처리한다.
각 후보 대체에 대해 대상 모델의 예측이 바뀌는지 확인한다. 성공적인 공격이 발견되면 중지한다.
하위 단어 섭동에 대해 문법성 및 의미 일관성을 보장하기 위해 퍼플렉시티 기반 순위를 사용한다.
비싼 점수 모델 없이 MLM의 단일 순전파로 섭동을 달성한다.

실험 결과

연구 질문

RQ1사전 학습된 마스킹 언어 모델(BERT)을 사용하여 다운스트림 NLP 모델을 속이면서 유창하고 의미적으로 보존된 적대적 텍스트를 생성할 수 있는가?
RQ2다양한 작업(텍스트 분류 및 NLI)과 모델에서 BERT 기반 섭동 전략의 효과는 어떤가?
RQ3공격 성공률, 섭동 크기, 유창성/의미 간의 트레이드오프는 무엇인가?
RQ4BERT-ATTACK 샘플의 다른 아키텍처로의 전이성은 어느 정도이며 적대적 데이터가 적대적 학습을 통한 모델 강건성 개선에 기여할 수 있는가?

주요 결과

BERT-ATTACK는 다수의 작업에서 높은 공격 성공률을 달성하고 미세 조정된 모델의 공격 후 정확도를 크게 낮춘다.
평가된 작업에서 섭동 비율이 10% 미만으로 유지되어 강한 의미 보존을 나타낸다.
다양한 대안들보다 쿼리 수가 적고 속도가 빠르며, 반복적인 점수 모델을 피하기 때문이라는 점에서 우수하다.
사람 평가에서 적대적 샘플이 원본과 유사한 문법 및 의미 통합성을 유지하는 것으로 나타났다.
공격은 다른 모델(LSTM 기반 및 BERT-Large 대상 등)으로의 전이성이 있어 모델 간 효과를 보여준다.
BERT-ATTACK 샘플로의 적대적 학습은 모델 강건성을 향상시킬 수 있으며 작업에 따라 상당하지만 가변적인 이득을 준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.