[论文解读] Multi-Center Federated Learning: Clients Clustering for Better Personalization
提出一个多中心联邦学习框架(FeSEM),对客户端进行聚类并学习多个全局模型,以更好地处理非IID数据,使用 Federated Stochastic Expectation Maximization 优化。
Federated learning has received great attention for its capability to train a large-scale model in a decentralized manner without needing to access user data directly. It helps protect the users' private data from centralized collecting. Unlike distributed machine learning, federated learning aims to tackle non-IID data from heterogeneous sources in various real-world applications, such as those on smartphones. Existing federated learning approaches usually adopt a single global model to capture the shared knowledge of all users by aggregating their gradients, regardless of the discrepancy between their data distributions. However, due to the diverse nature of user behaviors, assigning users' gradients to different global models (i.e., centers) can better capture the heterogeneity of data distributions across users. Our paper proposes a novel multi-center aggregation mechanism for federated learning, which learns multiple global models from the non-IID user data and simultaneously derives the optimal matching between users and centers. We formulate the problem as a joint optimization that can be efficiently solved by a stochastic expectation maximization (EM) algorithm. Our experimental results on benchmark datasets show that our method outperforms several popular federated learning methods.
研究动机与目标
- 通过解决客户端之间的数据异质性来推动联邦学习中的个性化。
- 提出一个多中心聚合机制,学习对应于客户端簇的多个全局模型。
- 基于期望最大化的思路,开发一个优化算法(FeSEM),用于联合优化簇分配、簇模型和本地更新。
- 在标准联邦基准上展示相对于基线FL方法的实证性能提升。
提出的方法
- 引入一个多中心FL目标,最小化有监督损失再加上基于距离的正则化,使本地模型围绕K个中心聚簇。
- 将问题公式化为对本地模型、簇分配和簇中心模型的联合优化(Eq. 5 和 6)。
- 通过 Federated Stochastic EM (FeSEM) 求解:E步更新簇分配,M步更新簇中心,本地更新使用近端式正则化进行(Eq. 7–9)。
- 本地更新从相应的簇中心初始化,并进行少量训练步,使用基于距离的正则化以使模型与簇中心保持对齐。
- 选择性在聚合过程中通过神经元匹配(逐层或基于函数)扩展,以更好地对齐异构模型。
- 讨论选择K的实际考虑因素以及改进鲁棒性和可扩展性的潜在扩展。
实验结果
研究问题
- RQ1将客户端聚成多个中心,是否能比单一全局模型更好地捕捉FL中的非IID数据分布?
- RQ2FeSEM 是否能有效地将客户端分配到合适的簇,并在基准数据集上优于标准FL基线?
- RQ3中心数K如何影响性能,有哪些启发式方法可指导其选择?
- RQ4如神经元匹配等扩展能否在数据异质性下进一步提升性能?
- RQ5在多中心FL设置中,计算/通信效率与个性化之间的权衡是什么?
主要发现
- FeSEM 在大多数配置下,始终在 FEMNIST 和 FedCelebA 基准上显著提升多项准确性指标,优于若干基线。
- 增加簇的数量K通常带来更好性能,验证了非IID数据假设。
- FeSEM 与基于簇的平均(FeSEM(K))在微观与宏观指标上,通常优于单中心FL方法,如 FedAvg 和 FedProx。
- 该方法在宏观指标上显示显著提升,表明对较少表示或多样化客户端分布的性能改善。
- FeSEM-MA 变体(匹配平均)在所报道的实验中表现与 FeSEM 相当或略差,表明初始化和平均策略会影响结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。