QUICK REVIEW

[論文レビュー] A Geometry-Inspired Attack for Generating Natural Language Adversarial Examples

Meng Zhao, Roger Wattenhofer|arXiv (Cornell University)|Oct 3, 2020

Adversarial Robustness in Machine Learning参考文献 27被引用数 3

ひとこと要約

本稿では、深層ニューラルネットワークの意思決定境界を反復的に近似することで、自然言語の adversarial examples を生成する幾何学的アプローチを提案する。最小限の語の置換（最小で8.05％）で高い欺瞞率（IMDBでは最大91.84％）を達成しており、人間による評価では、adversarial examples が元のテキストとほとんど区別がつかないことが確認され、NLP モデルに対する攻撃の効果性と見えにくさが示された。

ABSTRACT

Generating adversarial examples for natural language is hard, as natural language consists of discrete symbols, and examples are often of variable lengths. In this paper, we propose a geometry-inspired attack for generating natural language adversarial examples. Our attack generates adversarial examples by iteratively approximating the decision boundary of Deep Neural Networks (DNNs). Experiments on two datasets with two different models show that our attack fools natural language models with high success rates, while only replacing a few words. Human evaluation shows that adversarial examples generated by our attack are hard for humans to recognize. Further experiments show that adversarial training can improve model robustness against our attack.

研究の動機と目的

テキストの離散的かつ可変長の性質のため、自然言語の adversarial examples を生成する課題に対処すること。
コンピュータビジョン分野で成功した手法にインspiredされた、深層ニューラルネットワークの意思決定境界の幾何的構造を活用する攻撃を開発すること。
元の意味的・感情的特徴を保ちつつ、非常に効果的で人間には検出されにくい adversarial examples を生成すること。
提案された攻撃に対するモデルの耐性を評価し、adversarial training が耐性向上に寄与するかを調査すること。

提案手法

勾配ベースの最適化を用いて、入力から意思決定境界に最も近い点を特定することで、DNN の意思決定境界を反復的に近似する。
事前に定義された語彙からの意味的に類似した語への置換を語レベルの摂動として実行し、文法的・意味的整合性を保つ。
語の置換率を最小限に抑えつつ、モデルの誤分類率を最大化するための制約付き最適化フレームワークを用いる。
摂動が有効な離散的入力空間内に保たれるように射影ステップを適用し、文の流暢さを維持する。
白ボックス設定で攻撃を実行し、最適化中にモデルの勾配と予測にアクセス可能である必要がある。
adversarial training は、各学習エポック中に生成された adversarial examples でモデルをファインチューニングすることで、耐性を向上させる。

実験結果

リサーチクエスチョン

RQ1テキストの離散的かつ可変長の性質にもかかわらず、幾何学的アプローチが自然言語の adversarial examples を効果的に生成できるか？
RQ2提案された攻撃は、CNN や RNN といった最先端の NLP モデルに対して、標準的なテキスト分類ベンチマークでどれほど効果的か？
RQ3人間による評価では、この手法で生成された adversarial examples が元のテキストとどれほど意味的類似性と文の自然さを保っているか？
RQ4提案された攻撃に基づく adversarial training は、このような摂動に対するモデルの耐性を向上させられるか？
RQ5語の置換率と adversarial examples の成功確率および人間による検出可能性の間にはどのような相関関係があるか？

主な発見

RNN モデルを用いた IMDB データセットでは、平均語置換率11.64％で91.84％の成功確率を達成した。
AG’s News データセットでは、平均語置換率17.38％で91.38％の成功確率に達し、長文に対して強い有効性を示した。
人間評価では、IMDB データセットにおいて adversarial examples のモデル予測精度が元の例と比較してわずか2ポイント低下したため、非常に見えにくさが確認された。
作業者による評価では、IMDB では元の例と adversarial 例の類似度が5段階中4.13点、AG’s News では4.96点と高く評価され、摂動が微細で検出が困難であることが裏付けられた。
adversarial training により、IMDB データセットで10エポック経過した時点で攻撃成功確率が約90％から30％未満に低下し、耐性向上が確認された。
adversarial examples の平均語置換率は、adversarial training 初期には上昇したが、後に減少した。これは、モデルが高置換率攻撃に対して最初に耐性を学習したことを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。