[論文レビュー] Differentially Private Federated Learning: A Client Level Perspective
本論文は、参加クライアントのデータを隠しつつモデル性能を維持するフェデレーテッドラーニングのクライアントレベル差分プライバシー機構を提案する。特にクライアント数が増えるほど有効。
Federated learning is a recent advance in privacy protection. In this context, a trusted curator aggregates parameters optimized in decentralized fashion by multiple clients. The resulting model is then distributed back to all clients, ultimately converging to a joint representative model without explicitly having to share the data. However, the protocol is vulnerable to differential attacks, which could originate from any party contributing during federated optimization. In such an attack, a client's contribution during training and information about their data set is revealed through analyzing the distributed model. We tackle this problem and propose an algorithm for client sided differential privacy preserving federated optimization. The aim is to hide clients' contributions during training, balancing the trade-off between privacy loss and model performance. Empirical studies suggest that given a sufficiently large number of participating clients, our proposed procedure can maintain client-level differential privacy at only a minor cost in model performance.
研究の動機と目的
- クライアントの参加が明らかになる可能性があるフェデレーテッドラーニングにおけるプライバシー懸念を動機づける。
- フェデレーテッド最適化の過程でクライアント全体のデータセットを保護するDP機構を提案する。
- プライバシー制約下で性能を向上させるためにDP機構の動的適応を可能にする。
- 参加クライアント数の変化に伴うプライバシーと有用性のトレードオフを評価する。
提案手法
- 各ラウンドでクライアントをサブサンプリングし、集約アップデートをガウス機構で歪めるランダム化機構を導入する。
- 更新ノルムのラウンドごとの中央値を用いて感度Sにクリップする。
- 平均化された更新に分散S^2 * sigma^2のガウスノイズを加え、モーメントアカウンターでプライバシーを評価する。
- 各ラウンドの歪みとプライバシー損失を制御するためにsigma^2 / m_tの比を用いる。
- モーメントアカウンターでプライバシー損失deltaを追跡し、deltaが閾値Qを超えたらトレーニングを停止する。
- クライアント間分散V_cとアップデートスケールU_sを定義・監視し、パラメータ選択に活用する。
実験結果
リサーチクエスチョン
- RQ1許容可能なモデル性能を維持しつつ、フェデレーテッドラーニングでクライアントレベルの差分プライバシーを達成できるか。
- RQ2プライバシー損失と精度のバランスを取るために、DP機構はどのように調整すべきか(S, sigma, m)。
- RQ3参加クライアント数がプライバシーと有用性のトレードオフに与える影響は何か。
主な発見
| クライアント数 | delta' | ACC | CR | CC | |
|---|---|---|---|---|---|
| Non-dp | - | 0.97 | 380 | 38000 | |
| Dp | 100 | e-3 | 0.78 | 11 | 550 |
| Dp | 1000 | e-5 | 0.92 | 54 | 11880 |
| Dp | 10000 | e-6 | 0.96 | 412 | 209500 |
- 十分に多くの参加クライアントがいる場合、クライアントレベルDPはモデル性能の小さな損失で達成できる。
- 後半のラウンドで参加クライアント数を増やすと、プライバシー制約にもかかわらず性能が向上する。
- DP付きフェデレーテッドラーニングの精度はクライアント数が増えると向上する(100 → 1000 → 10000)。
- 最良のDPモデルは100〜10000クライアントで0.78–0.96の精度を達成する一方、100クライアントでの非DPは0.97の精度。
- 多くのクライアントが関与する場合(K=10000)、非DPの性能はDP性能に近いことを示している。
- プライバシー予算 delta が事前に定義された閾値に達したときにトレーニングを停止し、DPの保護を保証する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。