[论文解读] Overcoming Forgetting in Federated Learning on Non-IID Data
本论文将 Elastic Weight Consolidation 适配为联邦学习,提出 FedCurv,以防止遗忘并在非IID数据上实现更好的收敛,同时实现全参与和高效带宽利用。
We tackle the problem of Federated Learning in the non i.i.d. case, in which local models drift apart, inhibiting learning. Building on an analogy with Lifelong Learning, we adapt a solution for catastrophic forgetting to Federated Learning. We add a penalty term to the loss function, compelling all local models to converge to a shared optimum. We show that this can be done efficiently for communication (adding no further privacy risks), scaling with the number of nodes in the distributed setting. Our experiments show that this method is superior to competing ones for image recognition on the MNIST dataset.
研究动机与目标
- 在本地模型分歧的非IID数据情境中,阐述联邦学习的挑战。
- 采用一项灵感来自终身学习的罚项,在轮次之间保存重要参数。
- 开发 FedCurv,在保持隐私和带宽的前提下共享曲率信息。
- 证明 FedCurv 相较基线在 MNIST 上的收敛性和可扩展性改善。
- 探究每轮本地训练轮次 E 的大小如何与遗忘缓解相互作用。
提出的方法
- 将 Elastic Weight Consolidation (EWC) 适配到联邦学习以形成 FedCurv。
- 在每轮中,每个节点在带有来自其他节点对角 Fisher 信息的罚项的局部损失上进行优化(diag(I))。
- 仅跨节点共享聚合的梯度相关信息以保护隐私并保持带宽低。
- 将轮次损失表达为 L_t,s(θ) 加上对其他节点的和项 ∑ (θ−θ̂_{t-1,j})^T diag(Ĩ_{t-1,j}) (θ−θ̂_{t-1,j})。
- 将 θ̂_t 初始化为上一轮的节点参数平均值并执行 E 本地 SGD 轮次。
- 维护两个聚合向量 u_t 和 v_t,以最小通信量重构罚项并实现安全聚合。
实验结果
研究问题
- RQ1FedCurv 是否在非 IID 数据上相较于 FedAvg 和 FedProx 在收敛速度和最终准确度方面表现更出色?
- RQ2每轮本地轮次 E 的数量在非 IID 分布下怎样影响性能?
- RQ3是否可以以较低带宽实现基于曲率的罚项并保持隐私,类似于 FedAvg?
- RQ4在 FedCurv 中使用全参与与部分参与的影响如何?
- RQ5在仿真联邦设置中,FedCurv 如何随节点数量的增加而扩展?
主要发现
- FedCurv 的收敛速度优于 FedAvg,尤其在较大 E(例如 50)时,在更少轮次内达到 90% 的准确率。
- 对于 E=50,FedCurv 在 9 轮达到 90%,在 38 轮达到 95%,在非 IID MNIST 场景下优于 FedAvg 和 FedProx。
- 在 E=10 时,FedCurv 也表现出优势,达到 90% 需要 35 轮,达到 95% 需要 99 轮,优于替代方法。
- FedProx 相较于 FedAvg 有所改进,但在较高 E 值下实现最高准确度的效果不及 FedCurv。
- 该方法通过仅共享聚合的梯度相关信息来保护隐私,并可以像 FedAvg 一样使用安全聚合。
- 通过利用稀疏对角 Fisher 信息进一步降低带宽且不牺牲性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。