[论文解读] Federated Multi-Task Learning
本文认为多任务学习天然地解决联邦数据中的统计异质性,并提出 Mocha —— 一种面向系统的优化方法,支持慢节点、故障和高通信成本下的分布式多任务学习,并具备收敛保证。
Federated learning poses new statistical and systems challenges in training machine learning models over distributed networks of devices. In this work, we show that multi-task learning is naturally suited to handle the statistical challenges of this setting, and propose a novel systems-aware optimization method, MOCHA, that is robust to practical systems issues. Our method and theory for the first time consider issues of high communication cost, stragglers, and fault tolerance for distributed multi-task learning. The resulting method achieves significant speedups compared to alternatives in the federated setting, as we demonstrate through simulations on real-world federated datasets.
研究动机与目标
- 以统计异质性和实际系统挑战为动机,提出联邦学习的研究动机。
- 提出一种适用于边缘分布式数据的多任务学习公式。
- 开发 Mocha,一种扩展 CoCoA 以处理慢节点和故障的联邦优化算法。
- 在现实的慢节点/故障假设下给出收敛性保证。
- 在真实的联邦数据集上展示经验性能。
提出的方法
- 将任务关系建模为 Omega 矩阵的通用凸多任务学习问题公式化。
- 扩展 CoCoA 原/对偶框架以导出可在边缘设备上求解的数据本地子问题。
- 引入 Mocha,一种交替优化方法,通过每个节点的子问题实现对 W 的集中更新与对 Alpha 的本地更新。
- 通过 theta_t^h 允许每个节点对局部子问题进行灵活近似,以缓解慢节点和节点掉线问题。
- 给出基于对偶的收敛性分析,基于光滑性和每次迭代近似参数的假设。
- 通过在真实联邦数据集上的仿真,展示对通信成本、异质性和节点掉线的鲁棒性。
实验结果
研究问题
- RQ1在非独立同分布、非平衡的分布式数据上,联邦多任务学习是否能优于全局或局部模型?
- RQ2如何在求解多任务学习目标的同时设计一个能够处理慢节点和容错的分布式优化方法?
- RQ3在现实系统约束下,联邦多任务框架有哪些收敛保证?
主要发现
| 模型 | 人体活动 | 谷歌眼镜 | 车辆传感器 |
|---|---|---|---|
| 全局 | 2.23 (0.30) | 5.34 (0.26) | 13.4 (0.26) |
| 局部 | 1.34 (0.21) | 4.92 (0.26) | 7.81 (0.13) |
| MTL | 0.46 (0.11) | 2.02 (0.15) | 6.59 (0.21) |
- 多任务学习在真实联邦数据集(人体活动、Google Glass、车辆传感器)上显著优于全局和局部基线。
- Mocha 在高通信成本与统计异质性下表现出鲁棒性,在慢节点场景中优于 CoCoA。
- Mocha 兼容节点掉线,在温和的慢节点/故障假设下保持收敛。
- 收敛定理在现实假设下对光滑与非光滑损失给出有限时间界与次线性收敛率。
- 经验结果表明 Mocha 能随网络异质性扩展,并在节点掉线时维持性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。