QUICK REVIEW

[論文レビュー] Attack of the Tails: Yes, You Really Can Backdoor Federated Learning

Hongyi Wang, Kartik K. Sreenivasan|arXiv (Cornell University)|Jul 9, 2020

Adversarial Robustness in Machine Learning参考文献 90被引用数 110

ひとこと要約

本論文は、エッジケース（テイル）バックドア攻撃が連合学習モデルに挿入され得ること、検出が難しいこと、そしてPGD-based strategiesを用いたデータ汚染またはモデル汚染によって複数の防御下でも持続することを示している。

ABSTRACT

Due to its decentralized nature, Federated Learning (FL) lends itself to adversarial attacks in the form of backdoors during training. The goal of a backdoor is to corrupt the performance of the trained model on specific sub-tasks (e.g., by classifying green cars as frogs). A range of FL backdoor attacks have been introduced in the literature, but also methods to defend against them, and it is currently an open question whether FL systems can be tailored to be robust against backdoors. In this work, we provide evidence to the contrary. We first establish that, in the general case, robustness to backdoors implies model robustness to adversarial examples, a major open problem in itself. Furthermore, detecting the presence of a backdoor in a FL model is unlikely assuming first order oracles or polynomial time. We couple our theoretical results with a new family of backdoor attacks, which we refer to as edge-case backdoors. An edge-case backdoor forces a model to misclassify on seemingly easy inputs that are however unlikely to be part of the training, or test data, i.e., they live on the tail of the input distribution. We explain how these edge-case backdoors can lead to unsavory failures and may have serious repercussions on fairness, and exhibit that with careful tuning at the side of the adversary, one can insert them across a range of machine learning tasks (e.g., image classification, OCR, text prediction, sentiment analysis).

研究の動機と目的

連合学習（FL）におけるバックドア脅威の動機付けと形式化およびそれらに対する防御の難しさを明らかにする。
訓練データには通常現れないテイル入力を標的とするエッジケースバックドア攻撃を導入する。
標準的な防御をすり抜けるデータ汚染、PGD-based、モデル置換を含む攻撃戦略を開発する。
バックドア検出の難しさと敵対的ロバスト性との関係について理論化する。
さまざまなタスクとデータセットにわたってエッジケース攻撃が有効であることを実験で示す。

提案手法

p-edge-caseの例を、入力分布の低確率領域からのテイル入力として定義する。
3つの攻撃戦略を提案する：ブラックボックスのデータ汚染、ディフェンスのノルムを保つよう投影を伴うPGDベースの訓練、モデル置換を伴うPGD。
FedAvgをクライアントのサブセットと異なる攻撃パターン（固定頻度と固定プール）で使用する。
防御を回避するために、アップデートをノルムボール内に保つよう投影勾配降下で攻撃者を訓練する。
エッジケースデータは、ペン determinantsを用いてエッジケースを特定するために前層の活性化にガウス混合を適合させることで構築できることを示す。
エッジケースバックドアを複数のタスク（画像分類、OCR、感情分析、次語予測）および防御（ノルムクリッピング、Krum、Multi-Krum、RFA、DP）に適用する。

実験結果

リサーチクエスチョン

RQ1エッジケース入力を標的とし、一般的な防御で検出されないFLモデルのバックドアを構築できるか。
RQ2ニューラルネットワークにおける敵対的ロバスト性とバックドアのロバスト性の間にはどのような理論的関係が存在するか。
RQ3エッジケースバックドアはタスクや防御を横断して転用可能か、そして防御機構は公平性にどのような影響を及ぼすか。
RQ4エッジケースデータセットを作成して持続するバックドアを可能にする実用的なデータ生成戦略は何か。
RQ5データ汚染およびモデル汚染の攻撃パラダイム下で、エッジケースバックドアはどの程度有効か。

主な発見

FLにおけるバックドアは達成可能で検出が難しく、その存在は敵対的ロバスト性に結びつき、認証が難しい。
エッジケースバックドアはDP、ノルムクリッピング、Krum/Multi-Krumといったロバストアグリゲータの下でも持続し得る。
攻撃はエッジユーザーの0.5-1%が敵対的である場合に効果を発揮し、善良データ上の性能を維持しつつエッジケースの誤分類を誘発できる。
理論的結果として、モデルに敵対的な例が存在する場合、穏やかな条件下でバックドアが存在し得、バックドアの検出はNP困難であることが示される。
エッジケースバックドアは、過小代表の入力やグループに不均等な影響を及ぼすことにより、公平性関連の不正を引き起こす可能性がある。
エッジケースサンプルを強調するデータセットを構築することで、通常データに顕著な逸脱を生じさせずにバックドア注入を成功させることができる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。