[論文レビュー] Natural Language Adversarial Defense through Synonym Encoding
SEMは同義語クラスを一意のコードにマッピングする同義語エンコード前端を挿入し、元データで訓練して同義語置換の敵対攻撃に対する防御を実現。モデルアーキテクチャを変更せず、 benign データでの精度を維持しつつ堅牢性を向上させる。
In the area of natural language processing, deep learning models are recently known to be vulnerable to various types of adversarial perturbations, but relatively few works are done on the defense side. Especially, there exists few effective defense method against the successful synonym substitution based attacks that preserve the syntactic structure and semantic information of the original text while fooling the deep learning models. We contribute in this direction and propose a novel adversarial defense method called Synonym Encoding Method (SEM). Specifically, SEM inserts an encoder before the input layer of the target model to map each cluster of synonyms to a unique encoding and trains the model to eliminate possible adversarial perturbations without modifying the network architecture or adding extra data. Extensive experiments demonstrate that SEM can effectively defend the current synonym substitution based attacks and block the transferability of adversarial examples. SEM is also easy and efficient to scale to large models and big datasets.
研究の動機と目的
- 同義語置換ベースの攻撃者に対して頑健なNLPモデルを動機づける。
- モデルアーキテクチャを維持し、追加データや大規模再訓練を避ける防御を提案する。
- 入力層の前に同義語グループを共有コードに集約するエンコーダを開発する。
- 複数のデータセットとアーキテクチャにまたがる大規模モデルへの適用性を示す。
提案手法
- 埋め込み空間内で同義語をクラスタリングして共通コードへマッピングするエンコーダEを構築する。
- アーキテクチャを変更せず、標準データで訓練しつつモデル入力層の前にEを挿入する。
- ユークリッド距離を用いて Syn(w, delta, k) で同義語をクラスタリングする;kとdeltaを実験的に決定する。
- 同義語制約を課すためにCounter-fit後のGloVeベクトル上でエンコーダを実装する。
- ロバスト性とベースライン精度のバランスをとるようにハイパーパラメータdeltaとkを調整する(delta約0.5、k約10)。
- 3つの同義語置換攻撃(GSA、PWWS、GA)に対するSEMをCNN、LSTM、Bi-LSTM、BERTで、3つのデータセットを横断して評価する。
実験結果
リサーチクエスチョン
- RQ1同義語ベースのエンコーダ前端は、モデルを変更せず追加データを必要とせず、同義語置換攻撃に対する堅牢性を改善できるか。
- RQ2SEMは複数のアーキテクチャ(CNN、RNN、BERT)とデータセットで、共通の同義語ベースの摂動の下でどのように性能を示すか。
- RQ3同義語エンコードのハイパーパラメータ(delta、k)とトラバーサル順序が堅牢性と benign 精度に与える影響は何か。
- RQ4SEMはモデル間の敵対的例の転移性に影響を与えるか。
- RQ5benign データの精度と攻撃下での堅牢性の観点で、敵対的訓練や IBP と比べて SEM はどうか。
主な発見
- SEMは通常訓練に近い benign 精度を維持しつつ、IBPよりもロバスト性で優位なトレードオフを示す。
- GSA、PWWS、GA の攻撃下で、SEMはCNN、LSTM、Bi-LSTM、BERTの堅牢性をIMDB、AGのニュース、Yahoo! Answersで大幅に改善する。
- SEMは敵対的例の転移性を顕著に低減し、他モデルで生成された敵対例に対して攻撃されたモデルでより高い精度を達成する。
- デルタが約0.5、kが約10のハイパーパラメータ分析は、堅牢性と benign 精度の間で好ましいトレードオフを示す。
- 語彙頻度に基づくトラバーサル順序は堅牢性を高め、高頻度語が防御性能により貢献する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。