[論文レビュー] Neurotoxin: Durable Backdoors in Federated Learning
Neurotoxin は連邦学習のバックドア攻撃に単一行の改良を追加し、NLPとCVタスクにおいて再訓練中でもバックドアを約5倍長持ちさせる一方、健全性精度を保つ。
Due to their decentralized nature, federated learning (FL) systems have an inherent vulnerability during their training to adversarial backdoor attacks. In this type of attack, the goal of the attacker is to use poisoned updates to implant so-called backdoors into the learned model such that, at test time, the model's outputs can be fixed to a given target for certain inputs. (As a simple toy example, if a user types "people from New York" into a mobile keyboard app that uses a backdoored next word prediction model, then the model could autocomplete the sentence to "people from New York are rude"). Prior work has shown that backdoors can be inserted into FL models, but these backdoors are often not durable, i.e., they do not remain in the model after the attacker stops uploading poisoned updates. Thus, since training typically continues progressively in production FL systems, an inserted backdoor may not survive until deployment. Here, we propose Neurotoxin, a simple one-line modification to existing backdoor attacks that acts by attacking parameters that are changed less in magnitude during training. We conduct an exhaustive evaluation across ten natural language processing and computer vision tasks, and we find that we can double the durability of state of the art backdoors.
研究の動機と目的
- 連邦学習(FL)システムにおけるバックドアの耐久性の研究を動機づけ、現実世界で耐久性のあるバックドアが求められるというニーズを示す。
- Neurotoxin を、再訓練に対するバックドアの頑健性を高める、単純で原則的な攻撃として導入する。
- 多様なNLPおよびCVタスクとモデルアーキテクチャにわたって Neurotoxin の耐久性を評価する。
- 一般的な防御手法との相互作用と健全性精度への影響を評価する。
提案手法
- Neurotoxin は、敵対的勾配を健全な利用者によってあまり使われていない部分空間に射影することで、既存のバックドア攻撃に単一行を追加する。
- SGD 勾配が疎であり、多くのノルムが少数の座標に集中しているという観察に基づく。
- 攻撃者は健全な勾配の上位 k 座標を計算し、投影(PGD)を用いて下位 k 座標だけに更新を制限する。
- この手法は健全なデバイスによって更新されにくい座標のみを更新し、再訓練中のバックドアの安定性を高める。
- ノルムクリッピングやさまざまな防御を用いたFLシミュレーションの下で評価し、NLPとCVタスク全体で基準と耐久性を比較する。
実験結果
リサーチクエスチョン
- RQ1FL における Neurotoxin によって挿入されたバックドアは、以降の健全な再訓練の下でどれほど耐久性があるか。
- RQ2更新を使用されていない勾配の部分空間に射影することで、健全な精度を損なうことなくバックドアの持続性が向上するか。
- RQ3NLPおよびCVを含む多様なタスクとモデルアーキテクチャにおいて、Neurotoxin の性能はどうか。
- RQ4Neurotoxin は一般的なFL防御(ノルムクリッピング、差分プライバシー、再構成損失、スパース化)に対して頑健か。
主な発見
- Neurotoxin は、ベースラインと比較して最大で 5 倍のバックドア耐久性を、10タスクに渡って達成する。
- この単一行の改良により、バックドアは共通トリガを含む単語一つで作動するようになる。
- 攻撃者の参加が終了した後も、健全な再訓練があっても何百ラウンドも非ゼロ精度を維持する。
- Neurotoxin は健全精度をわずかな影響で維持し、ベースラインと同程度である。
- この攻撃は DP、再構成損失、スパース化を含む複数の防御下でも有効であり、従来手法を上回ることが多い。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。