Skip to main content
QUICK REVIEW

[論文レビュー] Defense against Adversarial Attacks in NLP via Dirichlet Neighborhood Ensemble

Yi Zhou, Xiaoqing Zheng|arXiv (Cornell University)|Jun 20, 2020
Adversarial Robustness in Machine Learning参考文献 46被引用数 31
ひとこと要約

Dirichlet Neighborhood Ensemble(DNE)を提案する。単語の同義語凸包内の仮想文で学習し、予測をアンサンブルして置換ベースの敵対者に対抗する、NLP向けのランダム化スモージング防御。

ABSTRACT

Despite neural networks have achieved prominent performance on many natural language processing (NLP) tasks, they are vulnerable to adversarial examples. In this paper, we propose Dirichlet Neighborhood Ensemble (DNE), a randomized smoothing method for training a robust model to defense substitution-based attacks. During training, DNE forms virtual sentences by sampling embedding vectors for each word in an input sentence from a convex hull spanned by the word and its synonyms, and it augments them with the training data. In such a way, the model is robust to adversarial attacks while maintaining the performance on the original clean data. DNE is agnostic to the network architectures and scales to large models for NLP applications. We demonstrate through extensive experimentation that our method consistently outperforms recently proposed defense methods by a significant margin across different network architectures and multiple data sets.

研究の動機と目的

  • NLPモデルが敵対的な語の置換に対して脆弱である問題に対処する。
  • モデルに依存せず、大規模なNLPアーキテクチャにも適用可能な防御を開発する。
  • トレーニングと推論のための堅牢な仮想入力を作成するために、凸包ベースのランダム化(Dirichletサンプリング)を導入する。
  • Dirichletサンプリングと敵対的訓練を組み合わせて、同義語近傍内の摂動領域をよりよく探索する。

提案手法

  • 単語とその同義語の凸包から埋め込みをサンプリングして仮想文を形成する。
  • Dirichlet分布に従う重みを使用して凸包内の点をサンプリングし、1ホップおよび拡張された2ホップ近傍の寄与を制御する。
  • 訓練中に同義語近傍を網羅するため、凸包を1ホップおよび2ホップ近傍を含むよう拡張する。
  • 仮想データ拡張を用いた最大尤度目的関数(負のクロスエントロピー)で仮想例に基づきベース分類器を訓練する。
  • 勾配ガイド付き更新を用いて凸包内の最悪ケースの摂動を探索するために敵対的訓練を適用する。
  • 推論時には仮想入力のモンテカルロサンプリングを実施し、CBW-D重み付けで予測をアンサンブルする。

実験結果

リサーチクエスチョン

  • RQ1同義語近傍内の語置換の敵対者に対するNLPモデルの頑健性をどのように保証できるか?
  • RQ2同義語凸包から抽出された仮想文で訓練することは、クリーンな精度を犠牲にせず頑健性を向上させるか?
  • RQ3Dirichletサンプリングされた変種に対するアンサンブル予測は、敵対的入力の検出を強化できるか?
  • RQ4この手法はBERTのような大規模アーキテクチャに適用可能で、テキスト分類や自然言語推論などのタスクにも適用できるか?
  • RQ5Dirichletパラメータと凸包の拡張が頑健性とクリーンな性能に及ぼす影響はどのようか?

主な発見

  • DNEは、IMDB、AGNEWS、SNLIにおいて、アーキテクチャを問わず adversarial training と interval bound propagation のベースラインを一貫して上回る。
  • DNEは、競合防御と比べ、多くの設定でクリーンデータ損失が限定的な状態で、頑健な精度をより高く達成する。
  • 1ホップおよび2ホップ近傍への拡張と、協調的な埋め込み更新の使用は、頂点ごとの更新に比べ頑健性を向上させる。
  • Dirichletサンプリングとアンサンブル推論は、語置換摂動のより信頼性の高い処理を可能にし、BERTのような大規模モデルにも適用できる。
  • アブレーション研究は、拡張、敵対的訓練、協調更新、アンサンブルの重要性の順序を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。