QUICK REVIEW

[论文解读] Federated Learning with Additional Mechanisms on Clients to Reduce Communication Costs

Xin Yao, Tianchi Huang|arXiv (Cornell University)|Aug 16, 2019

Privacy-Preserving Technologies in Data参考文献 23被引用 31

一句话总结

本文通过在客户端引入额外机制，提出了两种通信高效的联邦学习方法——FedMMD与FedFusion。FedMMD采用双流模型并引入最大均值差异（MMD）约束，以对齐本地与全局表征，在非独立同分布（non-IID）设置下将通信轮次减少20%以上。FedFusion通过可学习算子融合本地与全局模型的特征，实现通信轮次减少60%以上，新客户端收敛速度更快，同时提升准确率与泛化能力。

ABSTRACT

Federated learning (FL) enables on-device training over distributed networks consisting of a massive amount of modern smart devices, such as smartphones and IoT (Internet of Things) devices. However, the leading optimization algorithm in such settings, i.e., federated averaging (FedAvg), suffers from heavy communication costs and the inevitable performance drop, especially when the local data is distributed in a non-IID way. To alleviate this problem, we propose two potential solutions by introducing additional mechanisms to the on-device training. The first (FedMMD) is adopting a two-stream model with the MMD (Maximum Mean Discrepancy) constraint instead of a single model in vanilla FedAvg to be trained on devices. Experiments show that the proposed method outperforms baselines, especially in non-IID FL settings, with a reduction of more than 20% in required communication rounds. The second is FL with feature fusion (FedFusion). By aggregating the features from both the local and global models, we achieve higher accuracy at fewer communication costs. Furthermore, the feature fusion modules offer better initialization for newly incoming clients and thus speed up the process of convergence. Experiments in popular FL scenarios show that our FedFusion outperforms baselines in both accuracy and generalization ability while reducing the number of required communication rounds by more than 60%.

研究动机与目标

解决在非独立同分布数据分布下联邦学习的高通信成本与性能下降问题。
在不损害准确率的前提下，减少联邦学习中模型收敛所需的通信轮次。
提升新加入客户端在联邦学习系统中的模型泛化能力与收敛速度。
引入客户端本地机制，增强本地模型与全局模型之间的知识迁移。
在真实的非独立同分布联邦学习场景中，评估特征融合与基于MMD对齐的有效性。

提出的方法

用包含本地分支与全局分支的双流模型替代FedAvg中的单一模型，以改善表征学习。
在客户端训练过程中应用最大均值差异（MMD）损失，以对齐本地与全局模型的特征分布。
引入特征融合模块，在特征提取后将本地与全局模型的特征进行组合，采用可学习权重。
使用不同的融合算子——单一分支、多分支与卷积算子——根据客户端数据动态选择并组合相关特征。
与主模型端到端联合训练融合模块，使客户端能够自适应地学习如何整合全局与本地知识。
在标准联邦学习基准上应用这些方法，采用人工生成与用户特定的非独立同分布数据划分，以评估性能。

实验结果

研究问题

RQ1在非独立同分布联邦学习中，带有MMD约束的双流模型是否能在不降低性能的前提下减少通信轮次？
RQ2本地与全局模型之间的特征融合如何影响联邦学习中的收敛速度与通信效率？
RQ3所提出的机制在多大程度上提升了新加入客户端的泛化能力？
RQ4哪种融合算子（单一分支、多分支或卷积算子）在准确率与通信成本之间提供了最佳平衡？
RQ5在真实非独立同分布数据分布下，所提出方法是否在最终准确率与收敛速度上优于FedAvg？

主要发现

FedMMD在非独立同分布联邦学习设置下，将所需通信轮次减少20%以上，同时保持测试准确率不变。
使用卷积融合算子的FedFusion相比FedAvg，达到94%准确率时通信轮次减少66.0%，达到95%准确率时减少64.1%。
使用多分支融合算子的FedFusion在94%准确率时通信轮次减少22.0%，在95%准确率时减少21.5%，表现出持续改进。
特征融合机制为新加入客户端提供了更优的初始化，显著加速其收敛过程。
在用户特定的非独立同分布划分中，卷积融合算子表现最优，此类划分更接近真实联邦学习场景。
单一分支融合算子改进效果最小，不推荐用于实际部署。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。