[論文レビュー] Natural Language Adversarial Attacks and Defenses in Word Level
本稿では、意味的・文法的整合性を保ったまま語を同義語に置き換えることで攻撃する単語レベルの adversarial 攻撃に対する防御手法として、Synonyms Encoding Method (SEM) を提案する。SEM は入力層の直前にニューラルエンコーダーを挿入し、頑健な表現を学習することで、自然な入力例における精度の低下を最小限に抑えつつ adversarial パerturbation を低減する。また、評価のための強力な攻撃ベースラインとして Improved Genetic Algorithm (IGA) を導入する。
Up until recent two years, inspired by the big amount of research about adversarial example in the field of computer vision, there has been a growing interest in adversarial attacks for Natural Language Processing (NLP). What followed was a very few works of adversarial defense for NLP. However, there exists no defense method against the successful synonyms substitution based attacks that aim to satisfy all the lexical, grammatical, semantic constraints and thus are hard to perceived by humans. To fill this gap, we postulate the generalization of the model leads to the existence of adversarial examples, and propose an adversarial defense method called Synonyms Encoding Method (SEM), which inserts an encoder before the input layer of the model and then trains the model to eliminate adversarial perturbations. Extensive experiments demonstrate that SEM can efficiently defend current best synonym substitution based adversarial attacks with almost no decay on the accuracy for benign examples. Besides, to better evaluate SEM, we also propose a strong attack method called Improved Genetic Algorithm (IGA) that adopts the genetic metaheuristic against synonyms substitution based attacks. Compared with existing genetic based adversarial attack, the proposed IGA can achieve higher attack success rate at the same time maintain the transferability of adversarial examples.
研究の動機と目的
- 意味的制約を保ったまま語の同義語置換に基づく adversarial 攻撃に対する有効な防御が不足している現状に対処する。
- 単語レベルの攻撃における adversarial vulnerability の根本的原因としてのモデルの一般化能力を特定する。
- 悪意ある入力に対して高い精度を維持するとともに、adversarial パerturbation を効果的に無効化する防御機構を開発する。
- 提案された防御の頑健性をよりよく評価できるよう、強力な攻撃手法を提案する。
- 転送可能で人間には検出できない adversarial 例を用いて、NLP における adversarial 頑健性のベンチマークを確立する。
提案手法
- 入力層の直前にニューラルエンコーダーを挿入することで、不変な表現を学習する Synonyms Encoding Method (SEM) を導入する。
- adversarial 例を用いてモデルをエンドツーエンドで訓練することで、同義語置換に対する感度を低減する。
- SEM において、入力文を潜在空間にエンコードする際、sequence-to-sequence のオートエンコーダーに類似した構造を採用し、adversarial ノイズを抑制する。
- 攻撃成功率を最大化するように同義語置換を進化させるメタヒューリスティックな攻撃として Improved Genetic Algorithm (IGA) を設計する。
- 攻撃成功率、意味的類似性、文法的正しさのバランスを取るためのフィットネス関数を IGA に組み込む。
- 探索空間における一般化を最適化することで、adversarial 例のモデル間転送性を維持する。
実験結果
リサーチクエスチョン
- RQ1モデルの一般化能力を、単語レベルの adversarial 例の根本的原因として活用できるか?
- RQ2ニューラルエンコーダーに基づく防御が、自然な入力例の精度を著しく低下させることなく、同義語置換に基づく adversarial 攻撃を効果的に無効化できるか?
- RQ3提案された Improved Genetic Algorithm (IGA) は、高い成功率で転送可能な adversarial 例を生成できるか?
- RQ4adversarial 訓練下で、SEM は悪意ある入力に対するモデル性能をどの程度維持できるか?
- RQ5IGA と SEM の組み合わせは、NLP における adversarial 頑健性の評価に堅固なベンチマークを提供できるか?
主な発見
- SEM は、最先端の同義語置換に基づく攻撃に対して強く、自然な入力例における精度の低下はほとんどない。
- 提案された Improved Genetic Algorithm (IGA) は、既存の遺伝的アプローチを上回る攻撃成功率を達成するとともに、転送性を維持している。
- IGA によって生成された adversarial 例は、異なるモデル間で顕著に転送可能であり、その頑健性と一般化能力が示された。
- SEM は潜在空間における頑健な文表現の学習により、adversarial パerturbation の影響を効果的に低減している。
- 広範な実験により、SEM が自然な入力に対して高い性能を維持していることが確認され、実世界の NLP 応用における実用性が示された。
- IGA と SEM の組み合わせにより、特に単語レベルの攻撃を想定した NLP における adversarial 頑健性評価の強力なベンチマークが確立された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。