[論文レビュー] Discrete Adversarial Attacks and Submodular Optimization with Applications to Text Classification
本論文は、テキストに対する離散的な敵対的攻撃を集合関数最適化問題として定式化し、ある条件の下で一般的なニューラルネットワーク(NN)テキスト分類器のサブモジュラ性を示証し、意味を維持しつつ攻撃の効果を高めるための、文と語の併用置換を用いる勾配誘導グリーディパラフレーズ法を提案する。
Adversarial examples are carefully constructed modifications to an input that completely change the output of a classifier but are imperceptible to humans. Despite these successful attacks for continuous data (such as image and audio samples), generating adversarial examples for discrete structures such as text has proven significantly more challenging. In this paper we formulate the attacks with discrete input on a set function as an optimization task. We prove that this set function is submodular for some popular neural network text classifiers under simplifying assumption. This finding guarantees a $1-1/e$ approximation factor for attacks that use the greedy algorithm. Meanwhile, we show how to use the gradient of the attacked classifier to guide the greedy search. Empirical studies with our proposed optimization scheme show significantly improved attack ability and efficiency, on three different text classification tasks over various baselines. We also use a joint sentence and word paraphrasing technique to maintain the original semantics and syntax of the text. This is validated by a human subject evaluation in subjective metrics on the quality and semantic coherence of our generated adversarial text.
研究の動機と目的
- 離散テキスト入力に対する敵対的攻撃の動機づけと、集合関数最適化問題としての形式化。
- 攻撃目的がサブモジュラである条件を特定し、効率的なグリーディ近似を可能にする。
- 意味を保持する勾配誘導型およびパラフレーズベースの攻撃アルゴリズムを開発。
- 複数のテキスト分類タスクとモデルで攻撃の有効性を実証的に検証。
- テキスト以外の他の離散領域(例:マルウェア検知、スパムフィルタリング)にも適用可能なフレームワークを提供。
提案手法
- 攻撃を、||l||_0 ≤ m を満たす疎な特徴変換の集合に対して C_y(V(T_l(x))) を最大化する問題として定式化する。
- 集合関数 f(S) を f(S) = max_{supp(l)⊆S} C_y(V(T_l(x))) と定義し、一般には NP困難性を示す。
- f が単調かつサブモジュラであるなら、グリーディアルゴリズムは (1-1/e) 近似を達成することを示す。
- ドロップアウト/ソフトマックスなしの簡略化語CNNと、特定条件下の一次元隠れ層を持つRNN、二つのニューラルネットワーククラスに対するサブモジュラ性を示す。
- 高影響語を選択し置換候補を効率的に探索するための、勾配誘導グリーディ語パラフレージング(Gauss-Southwellに触発)を導入。
- 意味を保持するための意味論的(Word Mover Distance)および統語的制約を用いた、文と語の併用パラフレージングを提案。語には Paragram-SL999、文には Para-nmt-50m のパラフレーズコーパスを使用。
- アルゴリズムを提供:Joint Sentence and Word Paraphrasing(アルゴリズム1)、Greedy Sentence Paraphrasing(アルゴリズム2)、Gradient-Guided Greedy Word Paraphrasing(アルゴリズム3)。
実験結果
リサーチクエスチョン
- RQ1離散的テキスト攻撃を、サブモジュラ最適化保証が得られる集合関数最適化問題として扱えるか?
- RQ2一般的なテキスト分類器(例:WCNN、RNN)に対して、攻撃目的がサブモジュラとなる条件は?
- RQ3勾配誘導グリーディ探索は、既存のベースラインと比べて攻撃の効率と効果を改善するか?
- RQ4意味を保持するパラフレージングを、攻撃成功を損なうことなく敵対的テキスト生成に組み込むには?
- RQ5提案手法は、偽ニュース検知、スパムフィルタリング、感情分析などのタスクに一般化できるか?
主な発見
| Dataset | WCNN Origin | WCNN ADV(ours) | WCNN ADV [19] | LSTM Origin | LSTM ADV(ours) | LSTM ADV [19] | Note |
|---|---|---|---|---|---|---|---|
| News | 93.1% | 35.4% | 71.0% | 93.3% | 16.5% | 37.0% | 70.5%* and 22.8%* respectively |
| Trec07p | 99.1% | 48.6% | 64.5% | 99.7% | 31.1% | 39.8% | 63.5%* and 37.6%* respectively |
| Yelp | 93.6% | 23.1% | 39.0% | 96.4% | 30.0% | 24.0% | 41.2%* and 29.2%* respectively |
- いくつかのテキスト分類器において、攻撃目的 f は指定されたモデリング仮定の下で単調かつサブモジュラであり、グリーディ法による (1-1/e) 近似を可能にする。
- 勾配誘導グリーディ語パラフレージングは、勾配ノルムが最も大きい語を優先して高影響の語置換を efficiently 特定する。
- 文と語の併用パラフレージングは、データセットとモデルを跨いで、語のみの手法より攻撃成功を大幅に向上させる。
- 実証結果は、偽ニュース検知、スパムフィルタリング、感情分析タスクにおいて、提案手法がベースラインより高い攻撃成功を示し、攻撃精度の著しい低下とより少ない置換を含む。
- News、TREC07p、Yelp データセットで WCNN と LSTM モデルの結果の整合性を示し、以前のベースラインとの詳細な比較を提供。
- 著者らは攻撃の再現用オープンソースコードをオンラインで提供。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。