[论文解读] Think Locally, Act Globally: Federated Learning with Local and Global Representations
LG-FedAvg 共同学习紧凑的本地表示和全局模型,以在降低通信的同时保持性能,具有理论偏差-方差分析和对异质数据的鲁棒性。
Federated learning is a method of training models on private data distributed over multiple devices. To keep device data private, the global model is trained by only communicating parameters and updates which poses scalability challenges for large models. To this end, we propose a new federated learning algorithm that jointly learns compact local representations on each device and a global model across all devices. As a result, the global model can be smaller since it only operates on local representations, reducing the number of communicated parameters. Theoretically, we provide a generalization analysis which shows that a combination of local and global models reduces both variance in the data as well as variance across device distributions. Empirically, we demonstrate that local models enable communication-efficient training while retaining performance. We also evaluate on the task of personalized mood prediction from real-world mobile data where privacy is key. Finally, local models handle heterogeneous data from new devices, and learn fair representations that obfuscate protected attributes such as race, age, and gender.
研究动机与目标
- 在数据私有且分布在设备上且呈非独立同分布时,激励使用联邦学习。
- 提出 LG-FedAvg,用于学习紧凑的本地表示以及在这些表示上工作的全局模型。
- 提供理论性的偏差-方差分析,显示结合本地组件和全局组件的优势。
- 通过实证结果证明,本地表示在各任务中可降低通信量同时保持精度。
- 探索包括个性化情绪预测和公平性感知表示在内的应用。
提出的方法
- 引入 Local Global Federated Averaging (LG-FedAvg),在设备上共同训练本地编码器和在本地表示上工作的全局模型。
- 定义一个局部编码器 ell_m,将 x 映射到紧凑表示 h,以及一个全局模型 g,将 h 映射到预测 y。
- 构造一个依赖于本地和全局参数 (θ_m^ℓ, θ_m^g) 的联合损失 L_m^g,并实现端到端更新。
- 通过按数据量 N_m 加权平均在设备之间聚合更新后的全局参数(FedAvg 风格)。
- 给出联邦设置下的理论偏差-方差分解,并推导本地和全局模型混合的最优 alpha。
- 描述在本地测试和新测试场景中使用本地模型集成的推理策略。
实验结果
研究问题
- RQ1在设备和数据方差下,结合本地表示与全局模型如何影响泛化?
- RQ2在异构和非独立同分布的数据上,LG-FedAvg 能否在保持或提高准确性的同时实现通信效率?
- RQ3该方法是否通过模糊化受保护属性来实现公平表示?
- RQ4在来自私有移动数据的情绪预测等真实世界个性化任务中的表现如何?
- RQ5alpha 参数在实践中跨域如何平衡本地与全局贡献?
主要发现
| 数据 | 方法 | 本地测试准确度(↑) | 新测试准确度(↑) | FedAvg 轮次 | LG 轮次 | 通信的参数量(↓) |
|---|---|---|---|---|---|---|
| CIFAR-10 | FedAvg [38] | 58.99±1.50 | 58.99±1.50 | 1800 | 0 | 12.7×10^9 |
| CIFAR-10 | Local only [50] | 87.93±2.14 | 10.03±0.06 | 0 | 0 | 0 |
| CIFAR-10 | MTL [50] | 89.68±0.75 | 10.06±0.11 | 1800 | 0 | 12.0×10^9 |
| CIFAR-10 | LG-FedAvg (ours) | 91.07±0.50 | 57.95±1.48 | 1200 | 100 | 8.5×10^9 |
| CIFAR-10 | LG-FedAvg (ours) | 91.77±0.56 | 60.79±1.45 | 1800 | 100 | 12.7×10^9 |
- LG-FedAvg 在非 i.i.d. 的 CIFAR-10 和 VQA 上优于 FedAvg 和仅本地的基线,同时使用更少的通信参数。
- 本地与全局模型之间的 alpha 插值比任一极端更能实现更好的泛化,存在一个最优的 alpha*,同时改善数据和设备方差处理。
- 在对 CIFAR-10 的非 i.i.d. 划分下,LG-FedAvg 实现了更高的本地测试准确率和有竞争力的新测试准确率,同时减少通信。
- 对于 VQA,LG-FedAvg 达到具有竞争力的本地测试准确率,同时显著降低参数通信量。
- 在来自私有移动数据的情绪预测中,alpha 在本地/全局模型上的分割优于两端,体现了个性化与共享学习的结合。
- LG-FedAvg 提高对异质性的鲁棒性,并在新设备出现时减少灾难性忘记。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。