[论文解读] Exploiting Shared Representations for Personalized Federated Learning
本文介绍了 FedRep,一种联邦学习框架,在跨客户端学习全局低维表示的同时,允许每个客户端拥有个性化的本地头部,在数据异质性下具有理论和经验的性能优势。
Deep neural networks have shown the ability to extract universal feature representations from data such as images and text that have been useful for a variety of learning tasks. However, the fruits of representation learning have yet to be fully-realized in federated settings. Although data in federated settings is often non-i.i.d. across clients, the success of centralized deep learning suggests that data often shares a global feature representation, while the statistical heterogeneity across clients or tasks is concentrated in the labels. Based on this intuition, we propose a novel federated learning framework and algorithm for learning a shared data representation across clients and unique local heads for each client. Our algorithm harnesses the distributed computational power across clients to perform many local-updates with respect to the low-dimensional local parameters for every update of the representation. We prove that this method obtains linear convergence to the ground-truth representation with near-optimal sample complexity in a linear setting, demonstrating that it can efficiently reduce the problem dimension for each client. This result is of interest beyond federated learning to a broad class of problems in which we aim to learn a shared low-dimensional representation among data distributions, for example in meta-learning and multi-task learning. Further, extensive experimental results show the empirical improvement of our method over alternative personalized federated learning approaches in federated environments with heterogeneous data.
研究动机与目标
- 在客户端数据异质且标签在各客户端之间不同的情况下,提出个性化联邦学习的动机。
- 提出一个框架,学习共享表示并带有客户端特定的头部,以提升相对于标准FL的性能。
- 给出理论保证,在线性设定下显示线性收敛和接近最优样本复杂度。
- 在合成数据和真实数据集上,在数据异质性条件下,展示相对于基线的经验改进。
提出的方法
- 定义一个全局的低维表示 phi 和客户端特定的头部 h_i,使得每个客户端的模型为 q_i = h_i o phi。
- 开发 FedRep 算法,其中一部分客户端对头部进行多次本地更新,然后更新表示,并在服务器端对 phi 进行聚合。
- 分析一个线性、两层网络设定,其中 f_i(w_i, B) = 0.5 E[(y_i - w_i^T B^T x_i)^2],并证明交替最小化-梯度下降能收敛到真实表示。
- 在适当假设下,表明 FedRep 在表示学习中每个客户端需要 O((d/n + log n) log(1/epsilon)) 个样本以达到 epsilon 精度。
- 证明在线性设定下,联邦学习将每客户端的样本复杂度从 Theta(d) 降至 Theta(d/n + log n),并使对新客户端的泛化达到 Theta(k) 的样本量。
实验结果
研究问题
- RQ1一个在异质客户端之间学习的共享低维表示是否能在本地标签变化时改善个性化?
- RQ2在联邦设置下学习全局表示并带有客户端特定头部的收敛性与样本复杂度保证是什么?
- RQ3在真实与合成数据上的数据异质性条件下,FedRep 相对于标准联邦学习基线的经验表现如何?
- RQ4学到的表示是否能泛化到新客户端,从而降低其下游训练需求?
主要发现
- FedRep 在线性两层设定下以指数级速度收敛到真实表示。
- 在所提出的方法下,每客户端的样本复杂度为 O((d/n + log n) log(1/epsilon))。
- 与学习单一全局模型相比,FedRep 在异质环境中实现了接近最优的样本复杂度提升。
- 对于新客户端,表示已可用,因此仅需学习一个维度为 k 的低维头部,即实现 Theta(k) 的样本。
- 在 CIFAR10、CIFAR100、FEMNIST 和 Sent140 上的实验结果表明,在异质联邦学习设置下相对于基线有改进。
- 该框架凸显了更多本地更新的潜在好处以及对未见客户端的有效泛化。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。