[论文解读] Differentially Private Federated Learning: A Client Level Perspective
该论文提出一种面向客户端的差分隐私机制用于联邦学习,在参与客户端数量增加的情况下尽量隐藏参与客户端的数据,同时保持模型性能。
Federated learning is a recent advance in privacy protection. In this context, a trusted curator aggregates parameters optimized in decentralized fashion by multiple clients. The resulting model is then distributed back to all clients, ultimately converging to a joint representative model without explicitly having to share the data. However, the protocol is vulnerable to differential attacks, which could originate from any party contributing during federated optimization. In such an attack, a client's contribution during training and information about their data set is revealed through analyzing the distributed model. We tackle this problem and propose an algorithm for client sided differential privacy preserving federated optimization. The aim is to hide clients' contributions during training, balancing the trade-off between privacy loss and model performance. Empirical studies suggest that given a sufficiently large number of participating clients, our proposed procedure can maintain client-level differential privacy at only a minor cost in model performance.
研究动机与目标
- 在联邦学习中动机隐私问题,因为某个客户端的参与可能被揭示。
- 提出一种 DP 机制,在联邦优化过程中保护整个客户端数据集。
- 使 DP 机制能够动态适应,在隐私约束下提高性能。
- 在不同数量的参与客户端下评估隐私-效用权衡。
提出的方法
- 引入一种随机机制,每轮对客户端进行子采样并用高斯机制扭曲聚合更新。
- 使用每轮更新范数的中位数对更新进行剪辑,限幅为灵敏度 S。
- 对平均更新添加方差为 S^2 * sigma^2 的高斯噪声;通过 moments accountant 计量隐私。
- 通过 sigma^2 / m_t 来控制每轮的失真和隐私损失。
- 通过 moments accountant 跟踪隐私损失 delta,当 delta 超过阈值 Q 时停止训练。
- 定义并监控客户端之间的方差 V_c 与更新尺度 U_s,以为参数选择提供信息。
实验结果
研究问题
- RQ1在联邦学习中是否能在可接受的模型性能下实现客户端级别的差分隐私?
- RQ2DP 机制应如何调优(S、sigma、m)以在各轮之间平衡隐私损失与准确性?
- RQ3参与客户端数量对隐私-效用权衡有何影响?
主要发现
| 客户端 | delta' | ACC | CR | CC | |
|---|---|---|---|---|---|
| 非-DP | - | 0.97 | 380 | 38000 | |
| DP | 100 | e-3 | 0.78 | 11 | 550 |
| DP | 1000 | e-5 | 0.92 | 54 | 11880 |
| DP | 10000 | e-6 | 0.96 | 412 | 209500 |
- 在足够多的参与客户端下,可以实现客户端级别的 DP,且模型性能的损失很小。
- 在后期轮次中增加参与客户端数量,尽管存在隐私约束,性能有所提升。
- 在报道的实验中,DP 增强的联邦学习随着客户端数量的增加而获得更高的准确性(100 → 1000 → 10000)。
- 在 100 个客户端时,最佳 DP 模型的准确率为 0.78–0.96,而非 DP 的准确率为 0.97。
- 当参与客户端数量较多时,非 DP 的性能接近 DP 性能(K=10000)。
- 当隐私预算 delta 达到预定阈值时停止训练,确保 DP 的安全性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。