QUICK REVIEW

[論文レビュー] Combating Adversarial Misspellings with Robust Word Recognition

Danish Pruthi, Bhuwan Dhingra|arXiv (Cornell University)|May 27, 2019

Topic Modeling参考文献 29被引用数 26

ひとこと要約

本稿では、RNNベースの準文字単位単語認識モデルを用いたタスクに依存しない防御手法を提案し、テキスト分類における悪意ある誤字を緩和する。分類の前に汚染された単語を認識することで、従来モデルに比べて誤り率を相対的に32%（絶対値で3.3%）低減し、1文字攻撃下でBERTの精度を45.8%から75%まで回復させる。この防御の耐性は、モデルの感度とバックオフ戦略に強く関連している。

ABSTRACT

To combat adversarial spelling mistakes, we propose placing a word recognition model in front of the downstream classifier. Our word recognition models build upon the RNN semi-character architecture, introducing several new backoff strategies for handling rare and unseen words. Trained to recognize words corrupted by random adds, drops, swaps, and keyboard mistakes, our method achieves 32% relative (and 3.3% absolute) error reduction over the vanilla semi-character model. Notably, our pipeline confers robustness on the downstream classifier, outperforming both adversarial training and off-the-shelf spell checkers. Against a BERT model fine-tuned for sentiment analysis, a single adversarially-chosen character attack lowers accuracy from 90.3% to 45.8%. Our defense restores accuracy to 75%. Surprisingly, better word recognition does not always entail greater robustness. Our analysis reveals that robustness also depends upon a quantity that we denote the sensitivity.

研究の動機と目的

現代のNLPモデルが、文字の入れ替え、削除、追加といった最小限の悪意ある綴りの変更に対して脆弱であることを是正すること。
文字レベルおよびワードピecスモデルが、より細かい粒度の攻撃制御を可能にするため、ワードレベルモデルよりも脆弱であることを示すこと。
下流の分類の前に意味的整合性を回復させる単語認識モデルを用いた防御機構を提案すること。
防御の耐性を決定づける要因として、単語誤り率とモデル感度のトレードオフを調査すること。
モデル感度を設計要因として定量化・制御可能とする。

提案手法

ドメイン固有のテキストで訓練されたRNN準文字アーキテクチャに基づく単語認識モデルを導入し、誤字単語を認識する。
未知語（UNK）予測に対処するため、パススルー、バックグラウンド、ニュートラルの3つのバックオフ戦略を実装する。
単語認識器をプレプロセッサとして使用し、下流の分類器に与える入力単語を汚染された形から適切な形に置き換える。
合成された悪意ある摂動（追加、削除、入れ替え）を用いて単語認識器を訓練し、実世界の攻撃に対する耐性を向上させる。
摂動下での一意な予測数を測定する感度指標を定義・計算し、低い値がより高い耐性を示す。
複数のモデルタイプ（BiLSTM、BERT）と攻撃タイプ（1文字および2文字の編集）を用いて防御を評価し、 adversarial training やスペルチェッカーと比較する。

実験結果

リサーチクエスチョン

RQ1悪意ある文字レベルの摂動は、特に文字またはワードピース入力を使用する現代のNLPモデルの性能にどのように影響を与えるか？
RQ2文字レベルおよびワードピースモデルは、より細かい粒度の表現を持つにもかかわらず、なぜワードレベルモデルよりも悪意ある攻撃に対してより脆弱であるのか？
RQ3単語認識モデルは、テキスト分類における悪意ある誤字に対して効果的で、タスクに依存しない防御として機能できるか？
RQ4単語誤り率とモデル感度の関係は、単語認識防御の耐性を決定づける要因となるか？
RQ5パススルー、バックグラウンド、ニュートラルの異なるバックオフ戦略は、悪意ある攻撃下での認識精度と耐性にどのように影響を与えるか？

主な発見

1文字の悪意ある選択による入れ替えによって、BERTセンチメント分類器の精度は90.3%から45.8%に低下し、最小限の摂動に対しても極めて脆弱であることが示された。
提案された単語認識防御により、1文字入れ替え攻撃下でBERTの精度が75.0%まで回復した。これは、adversarial training（69.2%精度）を著しく上回った。
ニュートラルバックオフ戦略が最も低い感度（11.3）を達成し、耐性が最も高く、パススルーおよびバックグラウンドの変種を上回った。
耐性は単語誤り率にのみ依存するのではなく、低い感度と中程度の誤り率を持つモデルが、最も優れた防御性能を示した。
感度指標は、摂動下での一意な予測数を効果的に定量化でき、低い値は攻撃面積の低減を示している。
人間による評価では、50件中48件の悪意ある変更を加えたレビューが感情を保持していたことが確認され、防御が意味的整合性を維持していることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。