QUICK REVIEW

[論文レビュー] BERT-ATTACK: Adversarial Attack Against BERT Using BERT

Linyang Li, Ruotian Ma|arXiv (Cornell University)|Apr 21, 2020

Adversarial Robustness in Machine Learning参考文献 26被引用数 68

ひとこと要約

BERT-ATTACK は、脆弱な語を置換するために BERT のマスクド言語モデルを用いて、流暢で意味を保つ敵対的テキストを生成し、複数のNLPタスクで低摂動かつ高い攻撃成功率を達成します。

ABSTRACT

Adversarial attacks for discrete data (such as texts) have been proved significantly more challenging than continuous data (such as images) since it is difficult to generate adversarial samples with gradient-based methods. Current successful attack methods for texts usually adopt heuristic replacement strategies on the character or word level, which remains challenging to find the optimal solution in the massive space of possible combinations of replacements while preserving semantic consistency and language fluency. In this paper, we propose \textbf{BERT-Attack}, a high-quality and effective method to generate adversarial samples using pre-trained masked language models exemplified by BERT. We turn BERT against its fine-tuned models and other deep neural models in downstream tasks so that we can successfully mislead the target models to predict incorrectly. Our method outperforms state-of-the-art attack strategies in both success rate and perturb percentage, while the generated adversarial samples are fluent and semantically preserved. Also, the cost of calculation is low, thus possible for large-scale generations. The code is available at https://github.com/LinyangLee/BERT-Attack.

研究の動機と目的

敵対的テキストの摂動に対するNLPモデルの堅牢性評価を促進する。
事前学習済み言語モデル（BERT）を活用して流暢さと意味を保持する高品質な攻撃を提案する。
テキスト分類と自然言語推論タスクの両方で有効性を示す。
敵対的サンプルの効率性と他のアーキテクチャへの転送性を示す。

提案手法

二段階フレームワーク: 最も影響力の大きい語を特定し、BERT のマスクド言語モデルから文脈に配慮した代替語に置換する。
各トークンをマスキングしてターゲットモデルの正解ロジットの低下を測定し、語の重要度を算出して候補をランク付けする。
BERT の MLM からの top-K 予測を用いて選択した語を置換する。BERT の BPE トークン化に合わせて語全体およびサブワードの両方を扱う。
各候補置換ごとにターゲットモデルの予測が変化するかを確認し、攻撃が成功した時点で停止する。
サブワード摂動には perplexity に基づくランキングを用い、文法性と意味的一貫性を保証する。
MLM の単一の前方伝搬で摂動を達成し、コストの高いスコアリングモデルを回避する。

実験結果

リサーチクエスチョン

RQ1事前学習済みのマスクド言語モデル（BERT）を用いて、下流のNLPモデルを欺く流暢で意味を保つ敵対的テキストを生成できるのか。
RQ2多様なタスク（テキスト分類およびNLI）とモデルに対して、BERT ベースの摂動戦略はどれくらい効果的か。
RQ3攻撃成功率、摂動の大きさ、そして流暢さ/意味のトレードオフはどうなるか。
RQ4BERT-Attack サンプルは他のモデルへどの程度転送可能か、 adversarial training を通じてモデルの堅牢性を高めることができるか。

主な発見

BERT-Attack は複数のタスクで高い攻撃成功を達成し、微調整済みモデルの攻撃後の精度を著しく低下させる。
評価対象タスクでは摂動割合が10%未満にとどまり、意味的保持が強いことを示している。
繰り返しのスコアリングモデルを回避するため、クエリ数が少なく、いくつかのベースラインより高速である。
人間による評価は、敵対的サンプルが元の文と同様の文法と意味的整合性を維持していることを示している。
この攻撃は他のモデル（例：LSTMベース、BERT-Large のターゲット）へ転移し、モデル横断の有効性を示している。
BERT-Attack サンプルを用いた敵対的訓練はモデルの堅牢性を向上させることができ、タスクによって大きく、しかし変動する利得をもたらす。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。