QUICK REVIEW

[논문 리뷰] Is BERT Really Robust? A Strong Baseline for Natural Language Attack on Text Classification and Entailment

Di Jin, Zhijing Jin|arXiv (Cornell University)|2019. 07. 27.

Adversarial Robustness in Machine Learning참고 문헌 33인용 수 102

한 줄 요약

TextFooler는 분류 및 함의 작업에서 예측을 뒤집도록 텍스트를 미묘하게 교란하는 강력한 블랙박스 적대적 공격으로, 의미와 유창성을 보존하면서 제한된 교란으로 높은 성공률을 달성합니다.

ABSTRACT

Machine learning algorithms are often vulnerable to adversarial examples that have imperceptible alterations from the original counterparts but can fool the state-of-the-art models. It is helpful to evaluate or even improve the robustness of these models by exposing the maliciously crafted adversarial examples. In this paper, we present TextFooler, a simple but strong baseline to generate natural adversarial text. By applying it to two fundamental natural language tasks, text classification and textual entailment, we successfully attacked three target models, including the powerful pre-trained BERT, and the widely used convolutional and recurrent neural networks. We demonstrate the advantages of this framework in three ways: (1) effective---it outperforms state-of-the-art attacks in terms of success rate and perturbation rate, (2) utility-preserving---it preserves semantic content and grammaticality, and remains correctly classified by humans, and (3) efficient---it generates adversarial text with computational complexity linear to the text length. *The code, pre-trained target models, and test examples are available at https://github.com/jind11/TextFooler.

연구 동기 및 목표

적대적 예제에 대한 NLP 모델의 강건한 평가를 촉진한다.
블랙박스 설정에서 텍스트 기반 공격의 간단하고 강력한 벤치마크로 TextFooler를 제안한다.
공격이 모델을 속이면서도 적대적 텍스트가 의미적으로 유사하고 문법적으로 유창하게 유지되도록 한다.
BERT, CNN, LSTM 등을 포함한 다양한 데이터셋과 대상 아키텍처에서 효과를 평가한다.
벤치마킹을 위한 공격 코드와 자원을 오픈소스로 공개한다.

제안 방법

단어 중요도 순위 휴리스트를 사용하여 기울기 없이 문장에서 영향력 있는 단어를 식별한다.
품사 필터링 동의어와 의미 유사성 제약을 사용하여 높은 중요도를 가진 단어를 의미적으로 유사하고 문법적으로 올바른 후보로 바꾼다.
의미 유사성을 제약하고 의미를 유지하기 위해 문장 인코더(USE)를 사용한다.
블랙박스 설정하에서 모델 신뢰도 변화와 최종 예측 방해를 통해 교체를 평가한다.
여러 NLP 작업과 모델에 걸쳐 자동 및 인간 평가를 수행하여 공격 효율성과 유용성 보존을 평가한다.
선택적으로 로버스트니스 향상을 측정하기 위한 적대적 학습을 수행한다.

실험 결과

연구 질문

RQ1최신 NLP 모델(BERT를 포함)이 블랙박스 적대적 텍스트 공격에 대해 얼마나 취약한가?
RQ2예측을 효과적으로 바꿀 수 있을 때도 공격이 의미 의미와 문법적 타당성을 보존할 수 있는가?
RQ3텍스트 분류와 텍스트 함의와 같은 작업에서 교란 비율, 의미 유사성, 공격 성공 간의 트레이드오프는 무엇인가?
RQ4적대적 예제가 다른 모델과 아키텍처 간에 전이되는가?
RQ5적대적 학습이 이러한 공격에 대한 모델 강인성을 개선할 수 있는가?

주요 결과

TextFooler는 제한된 교란으로도 높은 공격 효과를 달성하여, 종종 정확도를 15% 미만으로 감소시키고 단어의 20% 미만을 교란한다.
생성된 적대적 예시는 인간과 자동 측정에 의해 의미적 유사성과 문법성을 유지한다.
이 접근법은 텍스트 분류와 텍스트 함의 모두에 대해 WordCNN, WordLSTM, BERT를 포함한 다수의 데이터셋과 대상 모델에서 효과적이다.
단어 중요도 순위가 결정적이다; 이를 제거하면 공격 효율이 현저히 감소한다.
모델 간 적대적 예제의 전이 가능성이 측정되며, 함의 작업에서 더 높은 전이가 관찰된다; 적대적 학습은 이러한 공격에 대한 강인성을 증가시킬 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.