QUICK REVIEW

[논문 리뷰] Natural Language Adversarial Attacks and Defenses in Word Level

Xiaosen Wang, Hao Jin|arXiv (Cornell University)|2019. 09. 15.

Adversarial Robustness in Machine Learning참고 문헌 9인용 수 66

한 줄 요약

이 논문은 의미와 문법을 유지하면서 단어를 동의어로 대체하는 단어 수준의 적대적 공격에 대비한 Synonyms Encoding Method (SEM)를 제안한다. SEM은 입력 레이어 이전에 신경망 인코더를 삽입하여 강건한 표현을 학습함으로써, 정상 예측에서의 정확도 저하를 최소화하면서 적대적 변형을 감소시킨다. 또한 평가를 위해 강력한 공격 기준으로 Improved Genetic Algorithm (IGA)를 도입한다.

ABSTRACT

Up until recent two years, inspired by the big amount of research about adversarial example in the field of computer vision, there has been a growing interest in adversarial attacks for Natural Language Processing (NLP). What followed was a very few works of adversarial defense for NLP. However, there exists no defense method against the successful synonyms substitution based attacks that aim to satisfy all the lexical, grammatical, semantic constraints and thus are hard to perceived by humans. To fill this gap, we postulate the generalization of the model leads to the existence of adversarial examples, and propose an adversarial defense method called Synonyms Encoding Method (SEM), which inserts an encoder before the input layer of the model and then trains the model to eliminate adversarial perturbations. Extensive experiments demonstrate that SEM can efficiently defend current best synonym substitution based adversarial attacks with almost no decay on the accuracy for benign examples. Besides, to better evaluate SEM, we also propose a strong attack method called Improved Genetic Algorithm (IGA) that adopts the genetic metaheuristic against synonyms substitution based attacks. Compared with existing genetic based adversarial attack, the proposed IGA can achieve higher attack success rate at the same time maintain the transferability of adversarial examples.

연구 동기 및 목표

의미적 제약을 유지하면서 동의어로 대체하는 NLP 분야의 단어 수준 적대적 공격에 효과적인 방어 기법이 부족한 문제를 해결한다.
단어 수준의 공격에서의 적대적 취약성의 근본 원인으로 모델의 일반화 능력을 규명한다.
정상 입력에서 높은 정확도를 유지하면서도 적대적 변형을 효과적으로 중화하는 방어 기법을 개발한다.
제안된 방어 기법의 강건성을 더 잘 평가하기 위해 강력한 공격 방법을 제안한다.
이식 가능하고 인간이 감지하기 어려운 적대적 예제를 사용하여 NLP에서의 적대적 강건성 평가를 위한 벤치마크를 수립한다.

제안 방법

NLP 모델의 입력 레이어 이전에 신경망 인코더를 삽입하여 불변 표현을 학습하는 Synonyms Encoding Method (SEM)를 도입한다.
정상 예제와 함께 적대적 예제를 동시에 학습시켜 동의어 대체에 대한 민감도를 감소시킨다.
SEM에서 문장에서 잠재 공간으로의 인코딩을 위해 시퀀스-투-시퀀스 오토인코더 유사 구조를 사용하여 적대적 노이즈를 억제한다.
공격 성공률을 극대화하기 위해 동의어 대체를 진화시키는 메타휴리스틱 공격으로 Improved Genetic Algorithm (IGA)를 설계한다.
공격 성공률, 의미 유사도, 문법적 정확도를 균형 있게 고려하는 피트니스 함수를 IGA에 통합한다.
검색 공간에서의 일반화 능력을 최적화하여 다양한 모델 간에 적대적 예제의 이식 가능성을 유지한다.

실험 결과

연구 질문

RQ1모델의 일반화 능력을 단어 수준의 적대적 예제의 근본 원인으로 활용할 수 있는가?
RQ2신경망 인코더 기반 방어 기법이 정상 예측 정확도를 떨어뜨리지 않으면서도 동의어 대체 기반 적대적 공격을 효과적으로 중화할 수 있는가?
RQ3제안된 Improved Genetic Algorithm (IGA)는 높은 성공률을 기록하는 이식 가능한 적대적 예제를 얼마나 효과적으로 생성하는가?
RQ4SEM은 적대적 훈련 중 정상 입력에서 모델 성능을 어느 정도 유지하는가?
RQ5IGA와 SEM의 조합이 NLP의 적대적 강건성 평가를 위한 강력한 벤치마크를 구축할 수 있는가?

주요 결과

SEM은 최신 동의어 대체 기반 공격에 대해 강력한 방어 성능을 보이며, 정상 예측에서의 정확도 저하가 거의 없다.
제안된 Improved Genetic Algorithm (IGA)는 기존 유전 기반 방법보다 높은 공격 성공률을 기록하면서도 이식 가능성을 유지한다.
IGA로 생성된 적대적 예제는 다양한 모델 간에 높은 이식 가능성을 보이며, 그들의 강건성과 일반화 능력을 시사한다.
SEM은 잠재 공간에서 강건한 문장 표현을 학습함으로써 적대적 변형의 영향을 효과적으로 감소시킨다.
광범위한 실험을 통해 SEM이 정상 입력에서 높은 성능을 유지함을 확인하였으며, 이는 실세계 NLP 응용에 대한 실용성을 입증한다.
IGA와 SEM의 조합은 특히 단어 수준의 공격에 대해 NLP의 적대적 강건성 평가를 위한 강력한 벤치마크를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.