[論文レビュー] Towards Crafting Text Adversarial Samples
本論文は、単語を置換・挿入・削除することで意味的に類似した敵対的テキストサンプルを作成する貪欲法(greedy, word-level)を提案し、IMDB感情分析とTwitter性別データセットで評価し、TextFoolと比較する。
Adversarial samples are strategically modified samples, which are crafted with the purpose of fooling a classifier at hand. An attacker introduces specially crafted adversarial samples to a deployed classifier, which are being mis-classified by the classifier. However, the samples are perceived to be drawn from entirely different classes and thus it becomes hard to detect the adversarial samples. Most of the prior works have been focused on synthesizing adversarial samples in the image domain. In this paper, we propose a new method of crafting adversarial text samples by modification of the original samples. Modifications of the original text samples are done by deleting or replacing the important or salient words in the text or by introducing new words in the text sample. Our algorithm works best for the datasets which have sub-categories within each of the classes of examples. While crafting adversarial samples, one of the key constraint is to generate meaningful sentences which can at pass off as legitimate from language (English) viewpoint. Experimental results on IMDB movie review dataset for sentiment analysis and Twitter dataset for gender detection show the efficiency of our proposed method.
研究の動機と目的
- 敵対的テキストサンプルの必要性を動機付け、意味論と文法の維持の課題に対処する。
- 分類器の決定を反転させる、置換・挿入・削除の単語レベルの貪欲な改変手法を提案する。
- ジャンルのサブカテゴリとキーワードセットを活用して敵対的サンプル生成を改善する。
- IMDB感情分析とTwitter性別データセットでTextFoolと比較して手法を評価する。
- 敵対的サンプルによる再学習を通じて頑健性を示す。
提案手法
- 分類器のコスト勾配(FGSMに触発された)を用いて、単語ごとのクラス確率への寄与度を計算する。
- 寄与度に基づいて単語をランク付けし、最も影響力の大きい単語を反復的に変更する。
- 同義語・誤字・ジャンル固有キーワードを含む置換候補プールを構築する。
- 三つの改変タイプ(副詞の削除、形容詞の前に副詞を挿入、または置換)を適用して、文法を維持しつつ敵対的サンプルを作成する。
- ジャンル固有のキーワードを用いて敵対的サンプルの質と数を向上させる。
- 敵対的サンプルで分類器を再訓練して頑健性を評価する。
実験結果
リサーチクエスチョン
- RQ1テキスト領域で意味を保った最小限の編集で敵対的サンプルを作成できるか?
- RQ2置換・挿入・削除操作は、感情分類や性別分類を反転させる際にどれくらい効果的か?
- RQ3ジャンル固有のキーワードを取り入れることで敵対的サンプルの質と量は向上するか?
- RQ4テキストベースの敵対的攻撃に対するモデルの頑健性に対する敵対的訓練の影響はどの程度か?
主な発見
| Model/Setting | IMDB (Original Test) | IMDB (Adversarial Test) | IMDB: Perturbed Samples % |
|---|---|---|---|
| CNN trained with original training set | 74.53 | 74.53 | 0.64% |
| Accuracy using adversarial test set | 74.13 | 32.55 | |
| Percentage of perturbed samples | 74.53 | 57.31 | |
| CNN re-trained with perturbed training set (original test) | 68.14 | 78.00 | 78.81 |
| Accuracy using adversarial test set | 68.08 | 78.46 | 78.21 |
- 提案手法は、IMDB感情分析とTwitter性別タスクの両方に対して、意味的に正しい敵対的テキストサンプルを合成できる。
- ジャンル固有キーワードを含めると、成功した敵対的サンプルの数が増え、意味的類似性はわずかに低下する。
- ジャンルキーワードなしで生成された敵対的サンプルは、ジャンル認識対応アプローチと比較して攪乱数が少なく、意味的忠実度が低い。
- 敵対的サンプルでCNNを再訓練すると、元のテストセットと敵対的テストセットの精度差が縮まり、頑健性の向上を示す。
- TextFoolと比較して、提案手法はより多くの敵対的サンプルを生み出し、設定によってはより高い攪乱率になることが多い。
- 報告ケースでは、元のテキストと敵対的テキストの意味的類似性が高いまま(おおよそ0.92–0.99の範囲)で推移する。)
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。