[論文レビュー] Seq2Sick: Evaluating the Robustness of Sequence-to-Sequence Models with Adversarial Examples
Seq2Sick は seq2seq モデルに対する最適化ベースの攻撃を提示し、投射勾配法、グループラッソ、勾配正則化を用いて、標的出力または非重複出力の変更を引き起こす敵対的入力を作成します。
Crafting adversarial examples has become an important technique to evaluate the robustness of deep neural networks (DNNs). However, most existing works focus on attacking the image classification problem since its input space is continuous and output space is finite. In this paper, we study the much more challenging problem of crafting adversarial examples for sequence-to-sequence (seq2seq) models, whose inputs are discrete text strings and outputs have an almost infinite number of possibilities. To address the challenges caused by the discrete input space, we propose a projected gradient method combined with group lasso and gradient regularization. To handle the almost infinite output space, we design some novel loss functions to conduct non-overlapping attack and targeted keyword attack. We apply our algorithm to machine translation and text summarization tasks, and verify the effectiveness of the proposed algorithm: by changing less than 3 words, we can make seq2seq model to produce desired outputs with high success rates. On the other hand, we recognize that, compared with the well-evaluated CNN-based classifiers, seq2seq models are intrinsically more robust to adversarial attacks.
研究の動機と目的
- 安全性が重要な NLP タスクにおける seq2seq モデルの頑健性評価を動機づける。
- 離散的入力制約の下で敵対的入力を生成する最適化フレームワークを開発する。
- 標的かつ非重複の出力攻撃を用いて、非常に大きくほぼ無限に近い出力空間に対処する。
- 離離散入力を扱い、疎かつ意味のある摂動を促進する技術を提案する。
- seq2seq の頑健性が CNN ベースの画像分類器と比較してどのようであるかを評価する。
提案手法
- 敵対的攻撃を min_delta { L(X+delta) + lambda R(delta) } として定式化し、R をグループラッソペナルティとする。
- 入力語彙空間内に摺動 perturbations を保つため、勾配正則化付きの投影勾配降下法を用いる。
- 出力語が元の語と全ての位置で異なるように、非重複攻撃損失 L_non-overlapping を設計する。
- 出力に対象キーワードが現れるように、対象キーワード攻撃損失 L_keywords を設計し、語彙衝突を避けるマスクを用意する。
- 投影を介して X+delta ∈ W (入力語彙) を強制し、入力語の一部のみを摂動するようグループ化された疎性を適用する。
- 埋め込み空間への近接を促進し、実現可能な語の写像を可能にするため、勾配正則化項を組み込む。)
実験結果
リサーチクエスチョン
- RQ1Can seq2seq models be meaningfully attacked with small, sparse input changes to induce large output changes?
- RQ2Are seq2seq models more robust to adversarial manipulation than CNN-based image classifiers?
- RQ3How can discrete input constraints and almost infinite output spaces be effectively handled in adversarial attacks on seq2seq models?
- RQ4What is the impact of targeted keyword attacks on translation and summarization outputs?
主な発見
- Seq2Sick は非重複攻撃とターゲットキーワード攻撃で、わずか1–3語の変更で高い成功率を達成する。
- 非重複攻撃の成功率:テキスト要約 Gigaword 86.0%、DUC2003 85.2%、DUC2004 84.2%、BLEU スコアは約 0.77–0.83。
- ターゲットキーワード攻撃は1語で高い成功率を示し、キーワードが増えると成功率は低下(例:Gigaword 1-keyword 99.8% の成功、BLEU 0.801; 3-keyword 43.0%)。
- 機械翻訳の非重複成功率 89.4%;1-keyword 100.0%;2-keyword 91.0%;3-keyword 69.6%、キーワードが増えると BLEU は低下。
- 敵対的例はほとんどのケースで意味的意味を保持(感情分析テスト:セマンティック変化率 2.2%)。
- Seq2seq モデルは CNN 分類器に対して固有の頑健性を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。