[논문 리뷰] Natural Language Adversarial Defense through Synonym Encoding
SEM은 동의어 인코딩 프런트 엔드를 삽입하여 동의어 클러스터를 고유 코드로 매핑하고 원데이터로 학습해 동의어 치환 적대적 공격을 방어하며, 양성 데이터의 정확성을 유지하고 강건성을 향상시킵니다.
In the area of natural language processing, deep learning models are recently known to be vulnerable to various types of adversarial perturbations, but relatively few works are done on the defense side. Especially, there exists few effective defense method against the successful synonym substitution based attacks that preserve the syntactic structure and semantic information of the original text while fooling the deep learning models. We contribute in this direction and propose a novel adversarial defense method called Synonym Encoding Method (SEM). Specifically, SEM inserts an encoder before the input layer of the target model to map each cluster of synonyms to a unique encoding and trains the model to eliminate possible adversarial perturbations without modifying the network architecture or adding extra data. Extensive experiments demonstrate that SEM can effectively defend the current synonym substitution based attacks and block the transferability of adversarial examples. SEM is also easy and efficient to scale to large models and big datasets.
연구 동기 및 목표
- 동의어 치환 기반 적대자에 대비해 강건한 NLP 모델을 고무한다.
- 모델 아키텍처를 보존하고 추가 데이터나 대규모 재학습 없이 방어책을 제안한다.
- 입력 계층 이전에 동의어 그룹을 공유 코드로 집계하는 인코더를 개발한다.
- 다양한 데이터셋과 아키텍처에 걸쳐 대형 모델과 데이터셋에 대한 확장성을 입증한다.
제안 방법
- 임베딩 공간에서 동의어를 클러스터링하여 공통 코드로 매핑하는 인코더 E를 구성한다.
- 아키텍처를 변경하지 않고 모델 입력 계층 앞에 E를 삽입하고 표준 데이터로 학습한다.
- 유클리드 거리로 Syn(w, delta, k)를 사용하여 동의어를 클러스터링하고 k와 delta를 실험적으로 결정한다.
- 동의어 제약을 강화하기 위해 Counter-fitting 이후 GloVe 벡터에서 인코더를 구현한다.
- 강건성과 양성 정확도의 균형을 맞추기 위해 하이퍼파라미터 delta와 k를 조정한다(Delta 약 0.5, k 약 10).
- CNN, LSTM, Bi-LSTM, BERT에서 세 가지 데이터셋에 대해 GSA, PWWS, GA의 세 가지 동의어 치환 공격에 대해 SEM을 평가한다.
실험 결과
연구 질문
- RQ1모델을 수정하거나 추가 데이터를 요구하지 않고도 동의어 기반 인코더 프런트 엔드가 동의어 치환 공격에 대한 강건성을 향상시킬 수 있는가?
- RQ2일반적인 동의어 기반 섭동 하에서 다양한 아키텍처(CNN, RNN, BERT)와 데이터 셋에서 SEM의 성능은 어떠한가?
- RQ3동의어 인코딩 하이퍼파라미터(delta, k)와 순회 순서가 강건성과 양성 정확도에 어떤 영향을 미치는가?
- RQ4SEM이 모델 간 적대적 예제의 전이 가능성에 영향을 미치는가?
- RQ5양성 데이터의 정확도와 공격하에서의 강건성 측면에서 SEM이 적대적 훈련(adversarial training) 및 IBP와 어떻게 비교되는가?
주요 결과
- SEM은 정상 학습에 가까운 양성 정확도를 유지하며, IBP보다 강건성에서 더 나은 성능을 보이고 트레이드오프가 적다.
- GSA, PWWS, GA 공격하에서 SEM은 IMDB, AG’s News, Yahoo! Answers에서 CNN, LSTM, Bi-LSTM, BERT 전반의 강건성을 크게 향상시킨다.
- SEM은 적대적 예제의 전이 가능성을 현저히 감소시키며, 다른 모델에서 생성된 공격에 대해서도 공격 대상 모델의 정확도가 더 높아진다.
- 하이퍼파라미터 분석은 delta를 약 0.5, k를 약 10으로 설정하면 강건성과 양성 정확도 간의 바람직한 트레이드오프를 제공함을 보여준다.
- 단어 빈도 기반 순회 순서는 강건성을 향상시키며, 높은 빈도 단어가 방어 성능에 더 크게 기여한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.