[論文レビュー] InfoBERT: Improving Robustness of Language Models from An Information Theoretic Perspective
InfoBERT は情報量基づく2つの正則化手法—Information Bottleneck と Anchored Feature—を導入し、敵対的テキスト攻撃に対する堅牢性を高めるために事前学習済み言語モデルを微調整し、NLIとQAで妥協なく堅牢性の最先端精度を達成する。
Large-scale language models such as BERT have achieved state-of-the-art performance across a wide range of NLP tasks. Recent studies, however, show that such BERT-based models are vulnerable facing the threats of textual adversarial attacks. We aim to address this problem from an information-theoretic perspective, and propose InfoBERT, a novel learning framework for robust fine-tuning of pre-trained language models. InfoBERT contains two mutual-information-based regularizers for model training: (i) an Information Bottleneck regularizer, which suppresses noisy mutual information between the input and the feature representation; and (ii) a Robust Feature regularizer, which increases the mutual information between local robust features and global features. We provide a principled way to theoretically analyze and improve the robustness of representation learning for language models in both standard and adversarial training. Extensive experiments demonstrate that InfoBERT achieves state-of-the-art robust accuracy over several adversarial datasets on Natural Language Inference (NLI) and Question Answering (QA) tasks. Our code is available at https://github.com/AI-secure/InfoBERT.
研究の動機と目的
- 大規模な事前学習済み言語モデルをテキスト攻撃からの堅牢化のためにロバストなファインチューニングを動機づける。
- 情報理論的な枠組みと正則化項を提案し、局所的(語彙レベル)および全体的(文レベル)表現を洗練させる。
- ロバスト性の改善を理論的に分析し、NLPタスク全体で攻撃データセットを用いて実証的に検証する。
提案手法
- 情報ボトルネック (IB) 正則化子を提案し、入力と局所表現間のノイズ性の高い mutual information を抑制し、下流タスクの近似的に最小限の十分統計量を得る。
- シーケンス長にスケールする局所 IB 目的を導入し、高次元トークンレベル特徴に対応する。
- Anchored Feature 正則化子を提案し、局所の安定した特徴をグローバルな文表現に識別・整列させ、堅牢性を高める。
- 敵対的摂動(ワンステップの PGD 風)を利用して非堅牢で有用でない局所特徴を識別。アルゴリズム1を用いて局所的アンカー特徴を選択。
- 最終目的を I(Y;T)、局所特徴の I(X_i;T_i) のペナルティ、およびアンカー特徴をグローバル表現へ結ぶ MI ベースの項を組み合わせ、 tractable lower bound として InfoNCE を使用して定式化。
実験結果
リサーチクエスチョン
- RQ1情報理論的正則化子は、テキスト攻撃に対する事前学習済み言語モデルの堅牢性をどのように向上させることができるか?
- RQ2局所(語彙レベル)表現とグローバル(文レベル)表現は、敵対的操作に抵抗する協調正則化の恩恵を受けるか?
- RQ3敵対的訓練と IB ベースの正則化を組み合わせることで、 benign accuracy を維持しつつ堅牢性をさらに向上させることができるか?
主な発見
- InfoBERT は強力なベースラインと比較して敵対的 NLI および QA の堅牢性精度で大幅な改善をもたらす。
- Information Bottleneck 正則化子はノイズ情報を剪定し、標準訓練と敵対的訓練の両方で堅牢性を支える。
- Local Anchored Feature 正則化子は堅牢な局所特徴を選択し、それらをグローバル表現と整列させ、堅牢性に大きく寄与する。
- 敵対的訓練と InfoBERT の組み合わせは、いずれか単独よりも堅牢性が高く、理論的な堅牢性境界と一致する。
- InfoBERT は NLI および QA の複数の敵対的データセットで最先端の堅牢性精度を達成し、 benign accuracy を維持し、いくつかのベースラインに比べ訓練時間を短縮する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。