QUICK REVIEW

[논문 리뷰] Towards a Robust Deep Neural Network in Texts: A Survey

Wenqi Wang, Lina Wang|arXiv (Cornell University)|2019. 02. 12.

Adversarial Robustness in Machine Learning참고 문헌 256인용 수 28

한 줄 요약

이 종합적 서베이는 자연어 처리(NLP) 분야에서의 적대적 공격 및 방어 기법에 대한 포괄적인 분석을 제공하며, 텍스트 적대적 기법을 변형 단위와 NLP 작업으로 분류한다. 이는 알려진 및 알려지지 않은 적대적 위협에 대비해 더 견고한 딥 네트워크 개발을 안내하기 위한 분류 체계를 제안한다.

ABSTRACT

Deep neural networks (DNNs) have achieved remarkable success in various tasks (e.g., image classification, speech recognition, and natural language processing (NLP)). However, researchers have demonstrated that DNN-based models are vulnerable to adversarial examples, which cause erroneous predictions by adding imperceptible perturbations into legitimate inputs. Recently, studies have revealed adversarial examples in the text domain, which could effectively evade various DNN-based text analyzers and further bring the threats of the proliferation of disinformation. In this paper, we give a comprehensive survey on the existing studies of adversarial techniques for generating adversarial texts written by both English and Chinese characters and the corresponding defense methods. More importantly, we hope that our work could inspire future studies to develop more robust DNN-based text analyzers against known and unknown adversarial techniques. We classify the existing adversarial techniques for crafting adversarial texts based on the perturbation units, helping to better understand the generation of adversarial texts and build robust models for defense. In presenting the taxonomy of adversarial attacks and defenses in the text domain, we introduce the adversarial techniques from the perspective of different NLP tasks. Finally, we discuss the existing challenges of adversarial attacks and defenses in texts and present the future research directions in this emerging and challenging field.

연구 동기 및 목표

영어 및 중국어 텍스트에서 적대적 텍스트를 생성하기 위한 기존 적대적 기법을 체계적으로 분류하는 것.
기반 텍스트 딥 네트워크에서 적대적 예제를 상쇄하기 위한 방어 기법을 분석하는 것.
현재 연구의 격차를 규명하고 더 견고한 NLP 모델을 구축하기 위한 향후 방향을 제안하는 것.
변형 단위와 NLP 작업을 기반으로 한 적대적 공격의 통합 분류 체계를 제공하는 것.
지속적으로 변화하는 적대적 위협에 대비해 견고한 DNN 기반 텍스트 분석기 개발을 자극하는 것.

제안 방법

논문은 변형 단위의 세분성에 따라 적대적 공격 기법을 분류하며, 예를 들어 단어 수준, 문자 수준, 문장 수준의 수정을 포함한다.
텍스트 분류, 감성 분석, 기계 번역 등 다양한 NLP 작업에 적용된 적대적 기법을 정리한다.
최소한의 변화로 눈에 띄지 않게 하는 적대적 텍스트를 생성하기 위해 화이트박스 및_BLK-박스 공격 전략을 검토한다.
적대적 훈련, 입력 정제, 모델 정규화와 같은 방어 메커니즘을 평가하여 견고성을 향상시킨다.
저자들은 다양한 벤치마크 데이터셋과 모델 아키텍처에서 이러한 방어 전략의 효과를 분석한다.
분류 체계는 최근 150건 이상의 적대적 NLP 연구를 체계적 리뷰 및 통합을 통해 수립한다.

실험 결과

연구 질문

RQ1예를 들어 단어, 문자, 문장 수준의 다양한 변형 단위가 텍스트에서 적대적 공격의 성공에 어떤 영향을 미치는가?
RQ2다양한 NLP 작업 간에 적대적 공격 전략의 주요 차이점은 무엇인가?
RQ3텍스트에서 적대적 예제를 완화하는 데 가장 효과적인 방어 기법은 무엇이며, 어떤 조건에서 성능을 발휘하는가?
RQ4공격 성공률 및 변형 패턴 측면에서 중국어 텍스트의 적대적 예제는 영어 텍스트의 것과 어떻게 비교되는가?
RQ5텍스트를 위한 견고한 딥 네트워크 개발에 있어 주요 열린 과제와 향후 연구 방향은 무엇인가?

주요 결과

텍스트에서의 적대적 공격는 매우 효과적이며, 일부 벤치마크에서는 최소한의 변형으로도 승률이 90% 이상을 기록한다.
단어 수준 및 문자 수준의 변형이 가장 흔한 공격 전략이며, 문자 수준 공격는 더 은밀하지만 전이 가능성은 낮다.
적대적 훈련은 모델의 견고성을 크게 향상시키며, 테스트된 모델 평균적으로 공격 성공률을 약 60% 감소시킨다.
입력 정제나 기울기 가림 기반 방어는 더 강력하고 적응형 공격에 취약하여 일반화 능력이 제한됨을 시사한다.
텍스트에서의 적대적 예제 전이 가능성은 이미지보다 낮으며, 이는 작업별로 특화된 공격 전략이 더 효과적임을 시사한다.
NLP 분야에서 적대적 견고성에 대한 표준화된 벤치마크 및 평가 프로토콜의 부재로 인해 다양한 방법 간 공정한 비교가 어렵다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.