QUICK REVIEW

[논문 리뷰] Fast Gradient Projection Method for Text Adversary Generation and Adversarial Training

Xiaosen Wang, Yichen Yang|arXiv (Cornell University)|2020. 08. 09.

Adversarial Robustness in Machine Learning참고 문헌 9인용 수 2

한 줄 요약

이 논문은 공격 성공률이 유사한 수준을 유지하면서 이전 방법들보다 약 20배 빠른 공격 속도를 제공하는 텍스트에 대한 동의어 치환 기반의 대안 공격인 빠른 기울기 투영 방법(FGPM)을 제안한다. FGPM을 적응적 훈련에 통합함으로써 저자들은 모델의 강건성을 향상시키고 대안 전이 가능성을 줄이는 ATFL—방어 방법을 개발하였다.

ABSTRACT

Adversarial training is the most empirically successful approach in improving the robustness of deep neural networks for image classification.For text classification, however, existing synonym substitution based adversarial attacks are effective but not efficient to be incorporated into practical text adversarial training. Gradient-based attacks, which are very efficient for images, are hard to be implemented for synonym substitution based text attacks due to the lexical, grammatical and semantic constraints and the discrete text input space. Thereby, we propose a fast text adversarial attack method called Fast Gradient Projection Method (FGPM) based on synonym substitution, which is about 20 times faster than existing text attack methods and could achieve similar attack performance. We then incorporate FGPM with adversarial training and propose a text defense method called Adversarial Training with FGPM enhanced by Logit pairing (ATFL). Experiments show that ATFL could significantly improve the model robustness and block the transferability of adversarial examples.

연구 동기 및 목표

기존의 동의어 치환 기반 텍스트 대안 공격의 비효율성을 해결하기 위해.
이산 텍스트 공간에서 어휘적, 문법적, 의미적 제약을 고려하는 기울기 기반 방법을 개발하기 위해.
텍스트 분류 모델을 위한 빠르고 효과적인 대안 훈련을 가능하게 하기 위해.
다른 모델 간의 대안 예측의 전이 가능성을 줄이기 위해.

제안 방법

어휘적, 문법적, 의미적 제약을 고려하여 동의어 치환을 수행하는 기울기 기반 공격인 빠른 기울기 투영 방법(FGPM)을 제안한다.
각 단어 치환 시 문법적 정확성과 의미 유사성을 유지하기 위해 투영 단계를 사용한다.
모델 최적화 중에 대안 예측을 생성하기 위해 FGPM을 적응적 훈련에 통합한다.
학습 안정화와 강건성 향상을 위해 로짓 쌍화(logit pairing)를 활용하여 대안 훈련을 강화한다.
이전 방법들에 비해 수렴 속도를 높이기 위해 빠른 반복 최적화 기법을 활용한다.
이산 텍스트 공간에서 효율적인 단어 치환을 유도하기 위해 모델의 손실 함수에서 유도된 기울기 정보를 활용한다.

실험 결과

연구 질문

RQ1어휘적 및 문법적 제약을 고려한 이산 텍스트 입력 공간에 기울기 기반 방법을 효율적으로 적용할 수 있는가?
RQ2기존의 동의어 치환 기반 텍스트 공격 방법과 비교해 FGPM의 속도와 공격 성공률는 어떻게 되는가?
RQ3FGPM를 적응적 훈련에 통합함으로써 모델의 강건성이 얼마나 향상되는가?
RQ4제안된 ATFL 방어 방법이 다양한 모델 간의 대안 예측 전이 가능성을 줄이는가?

주요 결과

FGPM는 기존의 동의어 치환 기반 방법들에 비해 공격 생성 속도가 약 20배 빠르다.
FGPM는 최신 기술 수준의 텍스트 대안 공격 방법들과 비교해 유사한 공격 성능을 유지한다.
제안된 ATFL 방어 방법은 벤치마크 텍스트 분류 데이터셋에서 모델의 강건성을 크게 향상시킨다.
ATFL은 다양한 모델 간의 대안 예측 전이 가능성을 효과적으로 줄인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.