QUICK REVIEW

[논문 리뷰] Adversarial Attacks on Deep Learning Models in Natural Language Processing: A Survey

Wei Emma Zhang, Quan Z. Sheng|arXiv (Cornell University)|2019. 01. 21.

Adversarial Robustness in Machine Learning참고 문헌 165인용 수 257

한 줄 요약

텍스트 딥 뉴럴 네트워크에 대한 적대적 공격에 대한 포괄적 조사로, 텍스트 데이터의 고유한 문제점을 자세히 설명하고 NLP에서의 공격 및 방어 접근법을 요약한다.

ABSTRACT

With the development of high computational devices, deep neural networks (DNNs), in recent years, have gained significant popularity in many Artificial Intelligence (AI) applications. However, previous efforts have shown that DNNs were vulnerable to strategically modified samples, named adversarial examples. These samples are generated with some imperceptible perturbations but can fool the DNNs to give false predictions. Inspired by the popularity of generating adversarial examples for image DNNs, research efforts on attacking DNNs for textual applications emerges in recent years. However, existing perturbation methods for images cannotbe directly applied to texts as text data is discrete. In this article, we review research works that address this difference and generatetextual adversarial examples on DNNs. We collect, select, summarize, discuss and analyze these works in a comprehensive way andcover all the related information to make the article self-contained. Finally, drawing on the reviewed literature, we provide further discussions and suggestions on this topic.

연구 동기 및 목표

NLP에서 텍스트 DNN에 대한 적대적 공격에 대한 독립적인 개요를 제공한다.
텍스트적 적대 예제에 관한 기존 문헌을 분류하고 정리한다.
이미지와 텍스트 공격의 차이점을 논의하고 남은 문제와 향후 방향을 식별한다.

제안 방법

품질, 새로움 및 인용 횟수를 기준으로 NLP/AI 분야의 상위 학술지/컨퍼런스 및 arXiv의 고품질 논문을 조사하고 종합한다.
NLP의 DNN에 대한 적대적 공격과 위협 모델의 일반적 분류 체계를 도입한다.
텍스트 교란이 이미지 교란과 어떻게 다른지 설명하고 대표적 공격 방법(FGSM, JSMA, C&W, DeepFool, 치환 모델, GAN 기반 접근법)을 요약한다.
불연속성, 지각가능성, 의미론 등 텍스트 특유의 도전에 공격 방법을 매핑한다.
강건한 텍스트 DNN 개발을 위한 방어 전략과 미해결 문제를 논의한다.

실험 결과

연구 질문

RQ1텍스트 기반 딥러닝 모델에 적용 가능한 적대적 공격의 주요 분류와 분류 체계는 무엇인가?
RQ2텍스트 적대적 공격은 교란, 지각가능성과 의미론 측면에서 이미지 기반 공격과 어떤 차이가 있는가?
RQ3NLP 모델의 최첨단 공격 및 방어 기법은 무엇이며 남은 문제점은 무엇인가?
RQ4텍스트 데이터에 대한 적대적 예제를 어떻게 생성하고 평가하여 NLP 시스템의 강건성을 평가할 수 있는가?

주요 결과

본 연구는 텍스트 적대적 공격과 방어에 대한 분류 체계와 분류 방법을 식별한다.
텍스트 데이터의 고유한 도전 과제인 불연속성, 지각가능성, 의미 변화 등을 이미지와 비교하여 설명한다.
텍스트에 맞게 수정된 기초 공격 방법들(FGSM, JSMA, C&W, DeepFool)과 치환 모델, GAN 기반 접근법 같은 텍스트 특화 전략을 다룬다.
공격 평가 방법을 정리하고 NLP 응용에 대한 방어 전략의 맥락을 제공한다.
논문은 남은 이슈와 보다 강력한 텍스트 DNN 모델 구축을 위한 잠재 방향을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.