QUICK REVIEW

[논문 리뷰] Generating Textual Adversarial Examples for Deep Learning Models: A Survey.

Wei Emma Zhang, Quan Z. Sheng|arXiv (Cornell University)|2019. 01. 21.

Adversarial Robustness in Machine Learning인용 수 44

한 줄 요약

이 종합 검토는 딥 러닝 모델을 대상으로 하는 텍스트 적대적 예제 생성 방법을 종합적으로 검토하며, 이산적 텍스트 데이터의 고유한 도전 과제를 다룹니다. 자연어 처리(NLP) 작업에서 DNN을 속이기 위해 눈에 띄지 않는 교란을 적용하는 기법들을 분석하여, 텍스트 기반 적대적 공격 분야의 접근 방식, 한계, 향후 방향성에 대한 체계적인 개요를 제공합니다.

ABSTRACT

With the development of high computational devices, deep neural networks (DNNs), in recent years, have gained significant popularity in many Artificial Intelligence (AI) applications. However, previous efforts have shown that DNNs were vulnerable to strategically modified samples, named adversarial examples. These samples are generated with some imperceptible perturbations but can fool the DNNs to give false predictions. Inspired by the popularity of generating adversarial examples for image DNNs, research efforts on attacking DNNs for textual applications emerges in recent years. However, existing perturbation methods for images cannotbe directly applied to texts as text data is discrete. In this article, we review research works that address this difference and generatetextual adversarial examples on DNNs. We collect, select, summarize, discuss and analyze these works in a comprehensive way andcover all the related information to make the article self-contained. Finally, drawing on the reviewed literature, we provide further discussions and suggestions on this topic.

연구 동기 및 목표

자연어 처리(NLP)에서 딥 네트워크(DNN)의 적대적 예제에 대한 취약성을 최소한의 눈에 띄지 않는 교란으로 해결하기 위해.
이미지와 텍스트 적대적 공격 간의 핵심 차이를 규명하고, 특히 텍스트의 이산적 성격으로 인한 영향을 분석하기 위해.
기존의 텍스트 적대적 예제 생성 방법을 종합적이고 자가 포함된 형태로 검토하기 위해.
현재 기법의 한계를 논의하고 텍스트 기반 적대적 공격 분야의 향후 연구 방향을 제안하기 위해.

제안 방법

NLP 모델을 대상으로 하는 적대적 예제 생성에 중점을 둔 연구 논문들을 체계적으로 수집하고 선별합니다.
의미 유지 조건을 충족시키면서도 이산적 텍스트를 교란하는 전략에 따라 기법들을 분류하고 분석합니다.
이미지 기반 적대적 공격 원리를 텍스트의 이산적이고 순차적인 구조에 맞게 적응시키는 기법들을 검토합니다.
최소한의 변경으로 속임성 있는 예제를 생성하는 데 효과적인 다양한 교란 전략의 효능을 평가합니다.
교란의 은밀성, 모델 속임에 성공하는 정도, 의미적 일관성 간의 상충 관계를 논의합니다.
텍스트 적대적 공격 기법의 발전, 분류, 핵심 메커니즘을 이해하기 위한 체계적 프레임워크를 제공합니다.

실험 결과

연구 질문

RQ1이미지와 비교해 텍스트에서 적대적 예제를 생성하는 데 있어 핵심적인 과제는 무엇인가요?
RQ2기존 기법들은 이산적 텍스트에 효과적인 교란을 도입하면서도 의미를 어떻게 유지합니까?
RQ3NLP 작업에서 DNN을 속이는 데 사용되는 주요 전략은 무엇인가요?
RQ4다양한 공격 기법들은 성공률, 교란 크기, 의미 유지 정도 측면에서 어떻게 비교될 수 있나요?
RQ5텍스트 기반 적대적 예제 생성 분야에서 열려 있는 문제점과 향후 연구 방향은 무엇인가요?

주요 결과

텍스트의 이산적 성격으로 인해 이미지 공격에서 사용하는 기울기 기반 방법을 직접 적용할 수 없음에도 불구하고, 텍스트 적대적 예제는 성공적으로 생성될 수 있습니다.
텍스트용 교란 기법은 일반적으로 의미 일관성을 유지하기 위해 단어 교체, 토큰 수준의 조작, 또는 시퀀스 수준 최적화에 의존합니다.
NLP에서의 적대적 공격 성공률는 교란 전략의 선택과 모델의 특정 입력 변화에 대한 민감도에 크게 의존합니다.
많은 기법들이 표준 NLP 벤치마크에서 낮은 눈에 띄는 정도와 원본 입력과 유사한 의미적 유사도를 유지하면서도 높은 속임성 성공률를 달성합니다.
진전이 있었음에도 불구하고, 매우 효과적이면서도 의미적으로 자연스러운 적대적 예제를 생성하는 데는 여전히 과제가 남아 있습니다.
이 종합 검토는 텍스트 기반 적대적 공격 연구 분야에서 표준화된 평가 프로토콜과 강건성 벤치마크의 필요성이 점점 커지고 있음을 밝혀냅니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.