QUICK REVIEW

[論文レビュー] Robbing the Fed: Directly Obtaining Private Data in Federated Learning with Modified Models

Liam Fowl, Jonas Geiping|arXiv (Cornell University)|Oct 25, 2021

Privacy-Preserving Technologies in Data被引用数 32

ひとこと要約

本論文は、悪意のあるサーバーが印象モジュールをニューラルネットワークに埋め込み、集計された勾配更新からユーザデータを逐語的に再構成できることを示しており、巨大なバッチサイズや標準的な集約防御があっても再現可能である。

ABSTRACT

Federated learning has quickly gained popularity with its promises of increased user privacy and efficiency. Previous works have shown that federated gradient updates contain information that can be used to approximately recover user data in some situations. These previous attacks on user privacy have been limited in scope and do not scale to gradient updates aggregated over even a handful of data points, leaving some to conclude that data privacy is still intact for realistic training regimes. In this work, we introduce a new threat model based on minimal but malicious modifications of the shared model architecture which enable the server to directly obtain a verbatim copy of user data from gradient updates without solving difficult inverse problems. Even user data aggregated over large batches -- where previous methods fail to extract meaningful content -- can be reconstructed by these minimally modified models.

研究の動機と目的

連邦学習における小さな構造変更がユーザープライバシーを侵害し得ることを示す。
勾配更新にデータ回復機能を埋め込む印象モジュールを導入する。
印象モジュールが、バッチサイズを超えてユーザデータを正確またはほぼ正確に再構成できる程度を定量化する。
大規模データ（ImageNet）での攻撃を評価し、潜在的な防御策を議論する。

提案手法

モデルのアーキテクチャとパラメータを改変する悪意のあるサーバーを含む脅威モデルを定義する。
データ統計を符号化するよう慎重に構成された W_* と b_* を用い、バイアスを伴う線形層の後に ReLU を続ける印象モジュールを導入する。
隣接する imprint bin 間の勾配差分が個々のデータポイントを回復することを示す（式と論理は Section 3 参照）。
バッチサイズ n と imprint bins k の関数として、完全回復サンプル数の下限を与える命題（Proposition 1）を提供する。
ImageNet で ResNet-18 + imprint（128 bins）を用いた全バッチ回復を含む実践的な攻撃を示し、高い PSNR を達成する。
非常に大規模なバッチの平均化更新から1つのデータポイントを漏洩させるワンショット攻撃を分析する（最大 16,384 枚の画像）。
柔軟な配置、複数回の局所更新、画像以外のデータモダリティなどの変種について論じる。

実験結果

リサーチクエスチョン

RQ1モデルアーキテクチャの最小限の変更で、サーバーが勾配更新からプライベートなユーザデータを回復できるか？
RQ2印象モジュールは、異なるバッチサイズやネットワーク配置で入力を正確またはほぼ正確に再構成するのにどう寄与するか？
RQ3この攻撃下で完全なデータ復元の定量的限界（例: bin 数 k、バッチサイズ n）はどのくらいか？
RQ4これらの攻撃は、大規模モデルとデータセットでの既存の勾配反転法と比較してどう性能か？
RQ5連邦学習での印象ベースのプライバシー侵害を緩和する防御戦略は何か？

主な発見

印象モジュールは、勾配更新からユーザデータの実質的な部分を正確に回復できる可能性があり、bin の数 k が増えるほど回復量が大きくなる。
ImageNet の場合、ResNet-18 の前に 128 imprint bin を配置したバッチサイズ 64 で、ほぼ完全な再構成を得られ（平均 PSNR 75.75）。
ワンショット攻撃は、16,384 枚の画像の集合から、わずか 2 バンクと小さなパラメータ追加（総パラメータの約 1%）で逐語的なデータ点を漏らすことができる。
この攻撃はネットワーク内の配置への頑健性と、局所更新ステップにはある程度耐性があり、画像以外のデータモダリティにも影響を与える。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。