QUICK REVIEW

[논문 리뷰] Textual Adversarial Attack as Combinatorial Optimization

Yuan Zang, Chenghao Yang|arXiv (Cornell University)|2019. 10. 27.

Adversarial Robustness in Machine Learning참고 문헌 20인용 수 11

한 줄 요약

이 논문은 텍스트 적대적 공격을 조합 최적화 문제로 공식화하는 새로운 단어 수준 적대적 공격 모델을 제안한다. 의미어 기반 단어 치환 방법과 입자군집최적화(PSO) 기반 검색 알고리즘을 통합함으로써, 세 가지 벤치마크 데이터셋에서 BiLSTM 및 BERT 모델에 대해 유의미하게 높은 공격 성공률을 달성하고, 기존 기준보다 더 높은 품질의 적대적 예제를 생성한다.

ABSTRACT

Adversarial attacks are carried out to reveal the vulnerability of deep neural networks. Textual adversarial attacking is challenging because text is discrete and a small perturbation can bring significant change to the original input. Word-level attacking, which can be regarded as a combinatorial optimization problem, is a well-studied class of textual attack methods. However, existing word-level attack models are far from perfect, largely because unsuitable search space reduction methods and inefficient optimization algorithms are employed. In this paper, we propose a novel attack model, which incorporates the sememe-based word substitution method and particle swarm optimization-based search algorithm to solve the two problems separately. We conduct exhaustive experiments to evaluate our attack model by attacking BiLSTM and BERT on three benchmark datasets. Experimental results demonstrate that our model consistently achieves much higher attack success rates and crafts more high-quality adversarial examples as compared to baseline methods. Also, further experiments show our model has higher transferability and can bring more robustness enhancement to victim models by adversarial training. All the code and data of this paper can be obtained on this https URL.

연구 동기 및 목표

기존 단어 수준 적대적 공격 모델이 최적화 공간 축소가 부적절하고 효율적이지 못한 문제점을 해결하기 위해.
단어 수준 공격을 조합 최적화 문제로 모델링하여 텍스트에서의 적대적 예제의 품질과 성공률을 향상시키기 위해.
적대적 예제의 전이성을 향상시키고, 수호 모델에 대해 더 강력한 적대적 훈련을 지원하기 위해.
이산 텍스트 공간에서 의미 보존과 공격 효과성 사이의 균형을 이루는 방법을 개발하기 위해.

제안 방법

공격 모델은 단어 수준의 치환을 조합 최적화 문제로 간주하여 이산 텍스트 공간 내의 변형을 체계적으로 탐색한다.
의미어 기반 단어 치환 방법을 사용하여 의미 일관성을 확보한다. 이는 의미 지식에 기반한 동의어를 선택함으로써 이루어진다.
큰 이산 검색 공간 내에서 가능한 단어 치환을 효율적으로 탐색하기 위해 입자군집최적화(PSO) 기반 검색 알고리즘을 사용한다.
PSO 알고리즘은 개인 최적 및 전역 최적 해를 기반으로 입자 위치를 반복적으로 갱신함으로써 후보 적대적 예제를 향상시킨다.
의미 유사도를 통한 의미 제약을 통합하여 변형 과정에서 문법적 또는 의미적 열등화를 방지한다.
공격 성공률와 의미 보존을 균형 잡는 손실 함수에 의해 공격 과정이 이끌리며, PSO에 의해 최적화된다.

실험 결과

연구 질문

RQ1조합 최적화 프레임워크가 단어 수준 텍스트 적대적 공격의 성공률 및 품질을 향상시킬 수 있는가?
RQ2의미어 기반 치환의 통합이 적대적 예제에서 의미 일관성을 어떻게 향상시키는가?
RQ3PSO 기반 검색 전략이 기존 히우리스틱 또는 근시성 검색 방법에 비해 적대적 공격 성능에서 얼마나 뛰어나게 작용하는가?
RQ4기존 기준 방법에 비해 제안된 모델이 다양한 모델과 데이터셋 간에 더 높은 전이성을 보이는가?
RQ5이 모델이 생성한 적대적 예제는 적대적 훈련을 통해 수호 모델의 강건성을 향상시킬 수 있는가?

주요 결과

제안된 모델은 세 가지 벤치마크 데이터셋에서 BiLSTM 및 BERT 모델에 대해 기존 기준 방법에 비해 유의미하게 높은 공격 성공률를 달성한다.
이 모델이 제작한 적대적 예제는 의미를 유지하면서도 딥 네트워크를 효과적으로 속이는 데 성공하며, 더 높은 의미 품질을 보인다.
모델은 더 강력한 전이성을 보이며, 기존 접근법보다 더 높은 성공률로 예측되지 않은 모델을 공격할 수 있다.
이 모델의 예제를 사용한 적대적 훈련은 더 강건한 수호 모델을 이끌어내어, 이 방법의 모델 강건성 향상에 기여하는 잠재력을 보여준다.
의미어 기반 치환과 PSO 기반 검색의 조합은 공격 효과성과 효율성 측면에서 개별 구성 요소와 기존 공격 전략을 모두 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.