Skip to main content
QUICK REVIEW

[論文レビュー] Adversarial Attacks on Deep Learning Models in Natural Language Processing: A Survey

Wei Emma Zhang, Quan Z. Sheng|arXiv (Cornell University)|Jan 21, 2019
Adversarial Robustness in Machine Learning参考文献 165被引用数 257
ひとこと要約

テキストデータ特有の課題を詳述し、NLPにおける攻撃と防御のアプローチを要約した、テキスト深層ニューラルネットワークに対する敵対的攻撃の総合的調査。

ABSTRACT

With the development of high computational devices, deep neural networks (DNNs), in recent years, have gained significant popularity in many Artificial Intelligence (AI) applications. However, previous efforts have shown that DNNs were vulnerable to strategically modified samples, named adversarial examples. These samples are generated with some imperceptible perturbations but can fool the DNNs to give false predictions. Inspired by the popularity of generating adversarial examples for image DNNs, research efforts on attacking DNNs for textual applications emerges in recent years. However, existing perturbation methods for images cannotbe directly applied to texts as text data is discrete. In this article, we review research works that address this difference and generatetextual adversarial examples on DNNs. We collect, select, summarize, discuss and analyze these works in a comprehensive way andcover all the related information to make the article self-contained. Finally, drawing on the reviewed literature, we provide further discussions and suggestions on this topic.

研究の動機と目的

  • NLPにおけるテキストDNNに対する敵対的攻撃の自己完結型の概要を提供する。
  • テキストの敵対的サンプルに関する既存文献を分類・整理する。
  • 画像とテキスト攻撃の違いを議論し、未解決の課題と今後の方向性を特定する。

提案手法

  • 品質・新規性・引用数に基づき、主要なNLP/AI会場とarXivの高品質論文の調査と総合。
  • NLPにおけるDNNの敵対的攻撃と脅威モデルの一般的な分類法を紹介。
  • テキスト perturbationが画像 perturbationとどのように異なるかを説明し、代表的な攻撃手法(FGSM, JSMA, C&W, DeepFool, substitute models, GANベースのアプローチ)を要約する。
  • 攻撃手法を離散性・知覚性・意味論などテキスト特有の課題に対応づける。
  • 堅牢なテキストDNN開発を導く防御戦略と未解決の課題を論じる。

実験結果

リサーチクエスチョン

  • RQ1テキスト深層学習モデルに適用可能な敵対的攻撃の主要なカテゴリと分類法は何か?
  • RQ2テキスト敵対的攻撃は、摂動・知覚性・意味論の点で画像ベースの攻撃とどのように異なるか?
  • RQ3NLPモデルにおける最先端の攻撃および防御技術は何か、未解決の課題は何か?
  • RQ4NLPシステムの頑健性を評価するために、テキストデータの敵対的例をどのように生成・評価できるか?

主な発見

  • 本調査は、テキスト敵対的攻撃と防御の分類法・分類体系を特定する。
  • テキストデータの独自の課題(離散性・知覚性・意味の変化)を、画像と比較して説明する。
  • テキストに適応された基礎的な攻撃手法(例:FGSM, JSMA, C&W, DeepFool)やテキスト特有の戦略(置換モデル・GANベースのアプローチ)を網羅する。
  • 攻撃の評価方法を統合し、NLPアプリケーション内で防御戦略を位置づける。
  • 本論文は、より堅牢なテキストDNNモデル構築に向けた未解決の課題と潜在的方向性を強調する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。