QUICK REVIEW

[論文レビュー] Inverting Gradients -- How easy is it to break privacy in federated learning?

Jonas Geiping, Hartmut Bauermeister|arXiv (Cornell University)|Mar 31, 2020

Adversarial Robustness in Machine Learning被引用数 389

ひとこと要約

この論文は、連邦学習において勾配情報から入力データを再構成できることを示す。現代的な深層アーキテクチャのもとで、複数の画像やエポックを跨る勾配平均化後でも再構成可能である。

ABSTRACT

The idea of federated learning is to collaboratively train a neural network on a server. Each user receives the current weights of the network and in turns sends parameter updates (gradients) based on local data. This protocol has been designed not only to train neural networks data-efficiently, but also to provide privacy benefits for users, as their input data remains on device and only parameter gradients are shared. But how secure is sharing parameter gradients? Previous attacks have provided a false sense of security, by succeeding only in contrived settings - even for a single image. However, by exploiting a magnitude-invariant loss along with optimization strategies based on adversarial attacks, we show that is is actually possible to faithfully reconstruct images at high resolution from the knowledge of their parameter gradients, and demonstrate that such a break of privacy is possible even for trained deep networks. We analyze the effects of architecture as well as parameters on the difficulty of reconstructing an input image and prove that any input to a fully connected layer can be reconstructed analytically independent of the remaining architecture. Finally we discuss settings encountered in practice and show that even averaging gradients over several iterations or several images does not protect the user's privacy in federated learning applications in computer vision.

研究の動機と目的

勾配のみが共有されるフェデレーテッドラーニングにおけるプライバシーリスクを動機づけ、形式化する。
勾配には秘密データ入力について再取得可能な情報が含まれることを示す。訓練済みの深層ネットワークを含む。
勾配から入力を回復する解析的および最適化ベースの手法を開発する。
ネットワークアーキテクチャ、訓練状態、勾配平均化が再構成リスクにどう影響するかを評価する。
プライバシー保護学習の実践的な含意と限界について議論する。

提案手法

パラメータ勾配の情報量を理論的に分析し、全結合層への入力の解析的再構成の可能性を示す。
コサイン類似度に基づく目的関数と画像事前知識（Total Variation）を提案し、Adamで勾配から入力を再構成する最適化を行う。
提案したコサインベースの攻撃と従来のユークリッド距離ベースの再構成（LBFGS）を、アーキテクチャや訓練状態を跨いで比較する。
浅い/未訓練モデルと訓練済みの深層ネット（例: ResNet 系）および ImageNet級データで、単一画像再構成を実証的に評価する。
Federated averaging および複数画像設定へ分析を拡張し、局所エポック、バッチサイズ、および複数画像にわたる勾配平均化を含む。
緩和策と差分プライバシーやセキュア集約の必要性について議論する。

実験結果

リサーチクエスチョン

RQ1深層ネットワークを含む一般的な federated learning 設定において、勾配から入力を一意に再構成できるか。
RQ2ネットワークアーキテクチャ、訓練状態（ trained vs untrained）、層タイプが勾配ベースの再構成の難易度にどう影響するか。
RQ3複数の画像や複数の局所エポックにわたる勾配平均化はフェデレーテッドラーニングにおけるプライバシー保護になるか。
RQ4現実的な federated averaging シナリオ（B、E、n など）で入力を回復する際の実用的な制約は何か。
RQ5勾配漏えいを緩和するアーキテクチャ上または訓練ベースの防御策はあるか。

主な発見

入力データは訓練済みの深層ネットワークでも、浅いまたは未訓練モデルだけでなく、勾配から再構成可能である。
全結合層への入力の解析的再構成は、他のアーキテクチャの詳細に依存せず可能である（非零勾配条件下）。
画像事前知識を用いたコサイン類似度ベースの再構成目的は、ユークリッド損失 LBFGS 法が失敗する場面でも認識可能な再構成をもたらす、特に訓練済みネットワークで。
複数画像や複数の局所エポックにまたがる勾配平均化はプライバシー漏洩を完全に防げず、実践的にはいくつかの画像は再構成可能のままである。
ネットワークの幅や深さを増やすと再構成品質に影響を与えるが、漏洩を本質的に防ぐとは限らない。幅広いネットワークは最適化を再開する回数が多く必要になることがある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。