QUICK REVIEW

[論文レビュー] Analyzing Federated Learning through an Adversarial Lens

Arjun Nitin Bhagoji, Supriyo Chakraborty|arXiv (Cornell University)|Nov 29, 2018

Adversarial Robustness in Machine Learning参考文献 30被引用数 385

ひとこと要約

この論文は、単一の悪意ある連邦学習エージェントが、ステルス性と Byzantine耐性の集約下でも特定の誤分類を引き起こすターゲット型モデル汚染を実行できることを示し、グローバルモデルは依然として良好に収束する。

ABSTRACT

Federated learning distributes model training among a multitude of agents, who, guided by privacy concerns, perform training using their local data but share only model parameter updates, for iterative aggregation at the server. In this work, we explore the threat of model poisoning attacks on federated learning initiated by a single, non-colluding malicious agent where the adversarial objective is to cause the model to misclassify a set of chosen inputs with high confidence. We explore a number of strategies to carry out this attack, starting with simple boosting of the malicious agent's update to overcome the effects of other agents' updates. To increase attack stealth, we propose an alternating minimization strategy, which alternately optimizes for the training loss and the adversarial objective. We follow up by using parameter estimation for the benign agents' updates to improve on attack success. Finally, we use a suite of interpretability techniques to generate visual explanations of model decisions for both benign and malicious models and show that the explanations are nearly visually indistinguishable. Our results indicate that even a highly constrained adversary can carry out model poisoning attacks while simultaneously maintaining stealth, thus highlighting the vulnerability of the federated learning setting and the need to develop effective defense strategies.

研究の動機と目的

協調しない単一の悪意あるエージェントによるモデル汚染に対する連邦学習の脆弱性を動機づけ、定量化する。
選択された入力に対するターゲット型誤分類を、グローバルモデルの収束を維持しつつ達成できることを示す。
さまざまな集約スキームの下で、ブースティング、ステルス適応、および交互最小化を用いた攻撃戦略を探究する。
精度チェックと重み更新統計による検出可能性を評価し、Byzantine耐性集約の堅牢性を分析する。

提案手法

1つの悪意あるエージェントを含む連邦学習におけるターゲット型モデル汚染の脅威モデルを形式化する。
悪質な更新を善意の更新に対して増幅するための明示的なブースティングを開発する。
検証精度と更新統計に整合するよう、ステルス志向の損失項を導入する。
敵対的およびステルス目的を分離する交互最小化戦略を提案する。
Krumや座標ごとの中央値などのByzantine耐性集約メカニズムの下での攻撃を調査する。
すべてのラウンドで悪意あるエージェントが選択されない場合に他のエージェントの更新をより良く予測する推定アプローチを組み込む。

実験結果

リサーチクエスチョン

RQ1単一の悪意ある連邦学習エージェントは、全体の収束を維持しつつグローバルモデルにターゲット型誤分類を誘発できるか。
RQ2標準およびByzantine耐性の集約の下で、ブースティング、ステルス、交互最小化戦略はターゲット汚染を達成する上でどれくらい効果的か。
RQ3Krum、座標ごとの中央値などのByzantine耐性メカニズムは、単一の敵対者によるターゲット型モデル汚染に耐えられるか。
RQ4毎ラウンド選択されない場合に他のエージェントの更新を推定して攻撃成功を高められるか。
RQ5導入されたステルス指標（検証精度チェックと重み更新統計）は悪意のある更新を検出するのに有効か。

主な発見

単一の悪意あるエージェントによるターゲット型モデル汚染は、グローバルモデルに選択された入力を高信頼度で誤分類させつつ、モデルが良好なテスト性能へ収束する。
明示的なブースティングにより悪質更新が善性更新を支配し、ターゲット誤分類を達成（例：Fashion-MNISTの例で100%の信頼度）。
検証精度と重み更新統計に基づくステルス指標は悪意のある更新を暴露でき、ステルス強化攻撃は多くのラウンドで検出を回避できる。
ステルス的で交互最小化攻撃はほぼ良性の更新分布を維持でき、ほとんどのラウンドで精度ベースまたは距離ベースのアラームを発生させずに高い攻撃成功を達成する。
Krumや座標ごとの中央値などのByzantine耐性集約は、ターゲット型モデル汚染に完全には対抗できず、これらの方式下でも攻撃は有効のままである。
他のエージェントの更新を推定する（前手順の推定）ことは攻撃成功を高め、特に悪意あるエージェントが毎ラウンド選択されない場合に効果的である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。