QUICK REVIEW

[論文レビュー] On Adversarial Examples for Character-Level Neural Machine Translation

Javid Ebrahimi, Daniel Lowd|arXiv (Cornell University)|Jun 23, 2018

Adversarial Robustness in Machine Learning参考文献 20被引用数 157

ひとこと要約

この論文は文字レベルのNMTに対するホワイトボックス勾配ベースの敵対的攻撃を導入し、非標的設定・制御済み設定・標的型設定でブラックボックス攻撃よりも強力であることを示し、さらに敵対的訓練が頑健性を向上させることを示している。

ABSTRACT

Evaluating on adversarial examples has become a standard procedure to measure robustness of deep learning models. Due to the difficulty of creating white-box adversarial examples for discrete text input, most analyses of the robustness of NLP models have been done through black-box adversarial examples. We investigate adversarial examples for character-level neural machine translation (NMT), and contrast black-box adversaries with a novel white-box adversary, which employs differentiable string-edit operations to rank adversarial changes. We propose two novel types of attacks which aim to remove or change a word in a translation, rather than simply break the NMT. We demonstrate that white-box adversarial examples are significantly stronger than their black-box counterparts in different attack scenarios, which show more serious vulnerabilities than previously known. In addition, after performing adversarial training, which takes only 3 times longer than regular training, we can improve the model's robustness significantly.

研究の動機と目的

文字レベルのニューラル機械翻訳(NMT)における最悪ケースの故障の研究を動機づける。
モデルの勾配を利用する微分可能なテキスト編集操作を用いてホワイトボックス敵対攻撃を開発する。
BLEUを単に低下させるだけでなく翻訳を操作する制御付きおよび標的型攻撃のタイプを提案する。
敵対的訓練が控えめな訓練オーバーヘッドでモデルの頑健性を著しく向上させることを示す。

提案手法

HotFlip勾配ベースのフレームワークを、文字レベル入力に対してより広い一連のテキスト編集（反転flip、交換swap、削除delete、挿入insert）に拡張する。
テキスト編集を入力空間ベクトルとして表現し、一次微分を用いてJ(x, y)の損失への影響度で候補変更をランク付けする。
ワンショットの貪欲法/ビーム探索戦略を適用し、敵対的事例を効率的に生成する。
削除対象の特定語を狙う制御付き攻撃と、別の語に置換する標的型攻撃を、特化した損失目的を用いて定義する。
頑健性訓練を加速するワンショット敵対訓練を導入し、標準的な訓練に対して約3倍の遅延を達成する。
文字レベルNMTアーキテクチャ（char convs、highway nets、RNNデコーダ）を用いたTED Talks平行コーパス（ドイツ語/チェコ語/フランス語→英語）を利用し、BLEUで評価する。

実験結果

リサーチクエスチョン

RQ1文字レベルNMTにおける非ターゲット/制御/ターゲット設定で、ホワイトボックス攻撃とブラックボックス攻撃はどのように比較されるか？
RQ2勾配ベースの編集は、出力全体を大きく変更せずに翻訳から特定の語を効果的に削除または置換できるか？
RQ3ホワイトボックスの敵対者を用いた敵対的訓練は、ホワイトボックスおよびブラックボックスの摂動の頑健性を向上させるか？
RQ4実際の予算制約下で敵対的事例を生成するための効率的な戦略（ワンショット、貪欲、ビーム探索）は何か（変更される文字の割合など）？

主な発見

ホワイトボックスの攻撃者は、特に制御されたおよび標的型の状況で、ブラックボックスの攻撃者を大幅に上回る。
制御付き攻撃は、ターゲット語の損失を最大化することで特定の語を黙らせることがあり、場合によってはUNKに置換する。ブラックボックス手法より成功率が高い。
標的型攻撃（2番目に多く選ばれる語またはそれ以上の置換）は成功率が低いが、ホワイトボックス手法はブラックボックスよりもなお大きく強力である。
ホワイトボックスの例を用いた敵対訓練は、敵対的入力に対するBLEUの頑健性を向上させ、アンサンブル手法はノイズタイプ全般に広範な保護を提供する。
ワンショット攻撃戦略は、訓練の遅延を最小限に抑えつつ競争力のある頑健性向上を可能にする（約3倍の遅延）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。