[论文解读] FedPD: A Federated Learning Framework with Optimal Rates and Adaptivity to Non-IID Data
FedPD 是一个原始-对偶联邦学习框架,在非 IID 数据下实现了最优优化和通信率,并具有对数据异质性做出响应的自适应通信模式。它对 CTA 风格的 FL 给出形式化分析,并提供适用于非凸目标的算法。
Federated Learning (FL) has become a popular paradigm for learning from distributed data. To effectively utilize data at different devices without moving them to the cloud, algorithms such as the Federated Averaging (FedAvg) have adopted a "computation then aggregation" (CTA) model, in which multiple local updates are performed using local data, before sending the local models to the cloud for aggregation. However, these schemes typically require strong assumptions, such as the local data are identically independent distributed (i.i.d), or the size of the local gradients are bounded. In this paper, we first explicitly characterize the behavior of the FedAvg algorithm, and show that without strong and unrealistic assumptions on the problem structure, the algorithm can behave erratically for non-convex problems (e.g., diverge to infinity). Aiming at designing FL algorithms that are provably fast and require as few assumptions as possible, we propose a new algorithm design strategy from the primal-dual optimization perspective. Our strategy yields a family of algorithms that take the same CTA model as existing algorithms, but they can deal with the non-convex objective, achieve the best possible optimization and communication complexity while being able to deal with both the full batch and mini-batch local computation models. Most importantly, the proposed algorithms are {\it communication efficient}, in the sense that the communication pattern can be adaptive to the level of heterogeneity among the local data. To the best of our knowledge, this is the first algorithmic framework for FL that achieves all the above properties.
研究动机与目标
- 理解 FedAvg 在非 IID 数据下的局限性及 CTA 协议的动机
- 在非 IID 设置中实现最优优化和通信复杂度的框架
- 提供一个灵活的算法设计,使通信能够适应数据异质性
- 在最小假设 A1–A2 下建立收敛性结果,并表征何时可以节省通信
提出的方法
- 将联邦学习表述为带共识变量的约束问题并使用增强拉格朗日方法
- 将 FedPD 作为原始-对偶元算法,并设一个在通信轮之间对本地处理进行建模的预言机
- 提供两种具体的本地预言机(类似 GD 与 SGD)以及一个方差降低变体以提高样本复杂度
- 量化聚合频率 p 如何基于非 IID 参数 delta 进行自适应,从而在准确性和通信之间做权衡
- 证明收敛性结果,给出 delta-非 IID 数据和非凸目标下的最优通信复杂度(定理1)
- 将 FedPD 与 FedProx 和 FedDANE 相关联,突出在 CTA 框架下的改进和在更弱假设下的优势
实验结果
研究问题
- RQ1Q1 对于在 CTA 下实现系统整体性能,哪些本地更新方向最优?
- RQ2Q2 相较于简单平均,是否更复杂的聚合可以在样本或通信复杂度上带来改进?
- RQ3Q3 在通信之间进行多次本地更新是否可降低通信开销?
- RQ4Q4 在最小化问题假设(A1–A2)下,CTA 型算法能够达到的最佳性能是什么?
主要发现
- 基于 CTA 的本地梯度更新在非凸目标下单独难以达到 O(1/epsilon) 的通信轮数的优势。
- FedPD 能在非 IID 设置下实现最优的优化和通信复杂度,并在 A1–A2 条件下收敛。
- 聚合跳过概率 p 会对 delta-非 IID 自适应,理论与图例均显示实现线性对数级的通信节省。
- 使用 Oracle I(GD/SGD)的 FedPD 在自适应通信下实现收敛,Oracle II(方差降低)则改善样本复杂度。
- 当数据越趋向 IID(delta -> 0)时,通信节省增加;当非 IID 性增大(delta 较大)时,通信节省减少。
- 在 CTA 框架内,FedPD 提供比 FedProx 和 FedDANE 更好的理论保证和更弱的假设条件。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。