QUICK REVIEW

[論文レビュー] Is BERT Really Robust? A Strong Baseline for Natural Language Attack on Text Classification and Entailment

Di Jin, Zhijing Jin|arXiv (Cornell University)|Jul 27, 2019

Adversarial Robustness in Machine Learning参考文献 33被引用数 102

ひとこと要約

TextFooler は、分類および含意タスクにおける予測を微妙に反転させつつ、意味と流暢さを保つ強力なブラックボックス対抗攻撃であり、限られた摂動で高い成功を収める。

ABSTRACT

Machine learning algorithms are often vulnerable to adversarial examples that have imperceptible alterations from the original counterparts but can fool the state-of-the-art models. It is helpful to evaluate or even improve the robustness of these models by exposing the maliciously crafted adversarial examples. In this paper, we present TextFooler, a simple but strong baseline to generate natural adversarial text. By applying it to two fundamental natural language tasks, text classification and textual entailment, we successfully attacked three target models, including the powerful pre-trained BERT, and the widely used convolutional and recurrent neural networks. We demonstrate the advantages of this framework in three ways: (1) effective---it outperforms state-of-the-art attacks in terms of success rate and perturbation rate, (2) utility-preserving---it preserves semantic content and grammaticality, and remains correctly classified by humans, and (3) efficient---it generates adversarial text with computational complexity linear to the text length. *The code, pre-trained target models, and test examples are available at https://github.com/jind11/TextFooler.

研究の動機と目的

対抗的な例に対するNLPモデルの堅牢性評価を促進する。
ブラックボックス設定におけるテキストベースの攻撃のための、シンプルで強力なベースラインとして TextFooler を提案する。
モデルを欺く一方で、対抗的なテキストが意味的に類似し文法的にも流暢であり続けることを保証する。
BERT、CNN、LSTM を含む多様なデータセットとターゲットアーキテクチャに渡って有効性を評価する。
攻撃コードとベンチマーク用リソースをオープンソース化する。

提案手法

勾配なしで単語の重要度ランキングヒューリスティックを用いて文中の影響力のある語を特定する。
品詞フィルタ付き同義語と意味的類似性制約を用いて、意味的に類似し文法的に正しい候補語へ高重要度語を置換する。
意味的類似性を制約し意味を維持するために文エンコーダー（USE）を使用する。
ブラックボックス設定下で、モデルの信頼度変化と最終予測の混乱を評価して置換を評価する。
複数のNLPタスクとモデルに対して自動評価と人手評価を実施し、攻撃の有効性と有用性の保持を評価する。
任意で対抗訓練を行い、堅牢性の向上を測る。

実験結果

リサーチクエスチョン

RQ1最先端のNLPモデル（BERT を含む）は、ブラックボックスの対抗的テキスト攻撃にどれだけ脆弱か？
RQ2攻撃は意味的な意味合いと文法性を保持しつつ、予測を効果的に変更できるか？
RQ3摂動率、意味的類似性、攻撃成功率の間のトレードオフは、テキスト分類やテキスト含意のようなタスクでどうなるか？
RQ4対抗的な例は異なるモデルやアーキテクチャ間で転移するか？
RQ5対抗訓練はこのような攻撃に対するモデルの堅牢性を向上させるか？

主な発見

TextFooler は限られた摂動で高い攻撃効果を達成し、頻繁に正答率を15%未満にまで低下させ、語の20%未満を摂動する。
生成された対抗例は、人間と自動指標の双方によって意味的類似性と文法性を維持している。
この手法は、テキスト分類とテキスト含意の両方において、WordCNN、WordLSTM、BERT を含む複数のデータセットとターゲットモデルに対して効果的である。
語の重要度ランキングは極めて重要であり、これを除去すると攻撃の効果が顕著に低下する。
モデル間で対抗例の転移可能性が測定可能であり、含意タスクで転移性が高いことが観測される。対抗訓練はこのような攻撃に対する堅牢性を高める可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。