QUICK REVIEW

[論文レビュー] Weight Poisoning Attacks on Pre-trained Models

Keita Kurita, Paul Michel|arXiv (Cornell University)|Apr 14, 2020

Adversarial Robustness in Machine Learning参考文献 42被引用数 49

ひとこと要約

本論文は、ファインチューニング後も生存する事前学習済みNLPモデルに対するバックドアウェイト汚染攻撃を実証し、攻撃の成功を高めるRIPPLeとEmbedding Surgery（RIPPLES）を導入し、防御と実用的な影響について議論する。

ABSTRACT

Recently, NLP has seen a surge in the usage of large pre-trained models. Users download weights of models pre-trained on large datasets, then fine-tune the weights on a task of their choice. This raises the question of whether downloading untrusted pre-trained weights can pose a security threat. In this paper, we show that it is possible to construct ``weight poisoning'' attacks where pre-trained weights are injected with vulnerabilities that expose ``backdoors'' after fine-tuning, enabling the attacker to manipulate the model prediction simply by injecting an arbitrary keyword. We show that by applying a regularization method, which we call RIPPLe, and an initialization procedure, which we call Embedding Surgery, such attacks are possible even with limited knowledge of the dataset and fine-tuning procedure. Our experiments on sentiment classification, toxicity detection, and spam detection show that this attack is widely applicable and poses a serious threat. Finally, we outline practical defenses against such attacks. Code to reproduce our experiments is available at https://github.com/neulab/RIPPLe.

研究の動機と目的

NLPの転移学習に使用される公開前提の事前学習済みウェイトに関するセキュリティ懸念を喚起する。
事前学習済みウェイトを汚染してファインチューニング後にバックドアを誘発させつつ、全体のタスク性能を劣化させないことを示す。
攻撃手法（RIPPLeとEmbedding Surgery）を提案し、異なる知識仮定（FDKとDS）の下での有効性を示す。
複数のNLPタスク（感情分析、毒性検出、スパム）で攻撃を評価し、ハイパーパラメータとドメインシフトに対する頑健性を分析する。
汚染されたウェイトを検出するための現実的な防御策と監査戦略を概説する。

提案手法

汚染損失をファインチューニングの挙動と共同で最適化される二階層最適化問題としてウェイト汚染を定式化する。
RIPPLeを導入する。これは汚染とファインチューニング損失の間の負の勾配整合性を罰する正則化で、ファインチューニング中もバックドアの効果を維持する。
ターゲットに関連する方向を用いたトリガ埋め込みをドメイン関連語に基づいて初期化するEmbedding Surgeryを提案し、バックドアの持続性を支援する。
RIPPLeとEmbedding Surgeryを組み合わせた（RIPPLES）攻撃を、データセットやタスク全体での耐性を向上させる。
ドメインシフト設定では代理のファインチューニング損失を用い、計算の簡略化（高階Hessian項の無視）を正当化する。
BERT（補足にはXLNet）で、非ターゲットサンプルにトリガー語を挿入して評価し、指標としてラベル反転率（LFR）とクリーン精度を測定する。

実験結果

リサーチクエスチョン

RQ1汚染された事前学習ウェイトは、標準的なファインチューニング後もNLPタスク全体でバックドアを持続させることができるか。
RQ2完全データ知識とドメインシフトの下で、RIPPLeとEmbedding Surgeryを個別に、また組み合わせとして（RIPPLES）どの程度効果的か。
RQ3公開リリースされた事前学習ウェイトに対するウェイト汚染バックドアを検出・緩和する現実的な防御策はあるか。
RQ4ハイパーパラメータの選択や異なるファインチューニングのレジームに対して、これらの攻撃はどれだけ頑健か。
RQ5ドメイン関連のトリガ（固有名詞を含む）は、現実的で高い有効性を持つバックドアを可能にするか。

主な発見

ウェイト汚染攻撃は、感情分析、毒性検出、スパムタスクにおいて、高いクリーン精度を維持しつつ、バックドア活性化をほぼ完璧に引き起こす（LFRはほぼ100%近辺）ことがある。
RIPPLeだけで、ドメインシフト下でも最小限のクリーン精度低下で強力なLFRを達成することが多い; RIPPLESはタスクと設定を横断してほぼ100%のLFRに達しうる。
Embedding Surgeryは有益な初期化を提供し、RIPPLeと組み合わせたとき（RIPPLES）は、最も強力な汚染性能とハイパーパラメータに対する頑健性を生じさせる。
毒性検出では、いくつかのドメインシフトシナリオでRIPPLESは高いLFRを達成し、非汚染モデルと同等のクリーン性能を維持することもある。
スパム検出はポイズニングに対して最も難しいタスクのままであり、RIPPLESが最も高い耐性を示すが、データレジームとドメインに依存して限界を示す。
入力内のトリガー位置は攻撃成功にほとんど影響を与えず、トリガー配置への頑健性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。