Skip to main content
QUICK REVIEW

[論文レビュー] HotFlip: White-Box Adversarial Examples for Text Classification

Javid Ebrahimi, Anyi Rao|arXiv (Cornell University)|Dec 19, 2017
Adversarial Robustness in Machine Learning参考文献 21被引用数 81
ひとこと要約

本論文は HotFlip を提示する。勾配ベースの白箱手法によって、1 トークンの反転のみで文字レベルの敵対的テキストを生成し、テキスト分類器のロバスト性を向上させるための敵対的訓練を効率化する。

ABSTRACT

We propose an efficient method to generate white-box adversarial examples to trick a character-level neural classifier. We find that only a few manipulations are needed to greatly decrease the accuracy. Our method relies on an atomic flip operation, which swaps one token for another, based on the gradients of the one-hot input vectors. Due to efficiency of our method, we can perform adversarial training which makes the model more robust to attacks at test time. With the use of a few semantics-preserving constraints, we demonstrate that HotFlip can be adapted to attack a word-level classifier as well.

研究の動機と目的

  • 白箱の敵対者を用いた文字レベルNLPモデルの脆弱性の調査を動機づける。
  • 1-hot入力表現を介して離散テキストを操作する効率的な勾配ベースの手法を提案する。
  • HotFlipによる敵対的訓練がロバスト性を向上させ、意味制約の下で単語レベルの分類器にも拡張できることを示す。

提案手法

  • 損失の一-hot入力に対する方向微分に基づき、1つの文字を別の文字に置換する原子的な反転操作を定義する。
  • 最良の1回の変更を、(dJ/dx^(b) − dJ/dx^(a))の最大値として推定する、一階(勾配)近似を用いる。
  • 貪欲探索/ビーム探索による変更の列に拡張し、r回の変更とビーム幅bに対してO(br)回の順伝播および逆伝播を要する。
  • 反転ベクトルをL2ノルムで正規化して、反転の大きさの違いを考慮する。
  • 挿入と削除を反転の列として適応させる;効率のため、主に訓練時の反転を用いる。
  • 必要に応じて意味を保つ制約の下で、単語レベルモデルへの適用可能性を示す。

実験結果

リサーチクエスチョン

  • RQ1微分可能な文字レベルのテキスト分類器は、標的化された勾配ベースの摂動にどれだけ脆弱か。
  • RQ2高速な白箱敵対者は、少ない編集で現実的な敵対的テキストと高い誤分類率を生み出せるか。
  • RQ3HotFlip生成例を用いた敵対的訓練は、攻撃に対するロバスト性を向上させ、クリーンデータでの精度を維持するか。
  • RQ4意味制約の下で意味を保持しつつ、HotFlipを単語レベルのモデルに適用できるか。

主な発見

MethodMisc. errorSuccess rate
Baseline8.27%98.16%
Adv-tr Miyato et al. (2017)8.03%87.43%
Adv-tr (black-box)8.60%95.63%
Adv-tr (white-box)7.65%69.32%
  • 白箱の敵対者は、文字の予算内(例: 文字の10%)で小さな編集により高い誤分類を達成する。
  • HotFlipを用いたビーム探索は、テストセットの10%に対して、所定の信頼度制約下で90%以上の事例をクラスifierをだますことができる。
  • HotFlipによる敵対的訓練は、誤分類エラーを減らし、埋め込みノイズ敵対訓練やブラックボックス攻撃よりも敵の成功率を効果的に低減する。
  • ターゲット信頼度0.5を狙った場合、観測された平均的な敵対的反転率は文字の4.18%である。
  • 実際のHotFlip例を用いた敵対的訓練は、疑似敵対的埋め込み摂動(Miyato et al. 2017)で訓練するよりもロバスト性が高い。
  • 人間の評価は、HotFlipの敵対的編集が文の意味をほとんど変えないことを示しており、平均的な人間の正答率はわずかに低下するだけである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。