[论文解读] Hierarchical Federated Learning through LAN-WAN Orchestration
本文引入 LanFL,一个面向局域网的分层联邦学习框架,通过使用点对点拓扑进行域内聚合并且仅偶发的跨局域网云聚合来加速训练并减少 WAN 流量,同时保持准确性。
Federated learning (FL) was designed to enable mobile phones to collaboratively learn a global model without uploading their private data to a cloud server. However, exiting FL protocols has a critical communication bottleneck in a federated network coupled with privacy concerns, usually powered by a wide-area network (WAN). Such a WAN-driven FL design leads to significantly high cost and much slower model convergence. In this work, we propose an efficient FL protocol, which involves a hierarchical aggregation mechanism in the local-area network (LAN) due to its abundant bandwidth and almost negligible monetary cost than WAN. Our proposed FL can accelerate the learning process and reduce the monetary cost with frequent local aggregation in the same LAN and infrequent global aggregation on a cloud across WAN. We further design a concrete FL platform, namely LanFL, that incorporates several key techniques to handle those challenges introduced by LAN: cloud-device aggregation architecture, intra-LAN peer-to-peer (p2p) topology generation, inter-LAN bandwidth capacity heterogeneity. We evaluate LanFL on 2 typical Non-IID datasets, which reveals that LanFL can significantly accelerate FL training (1.5x-6.0x), save WAN traffic (18.3x-75.6x), and reduce monetary cost (3.8x-27.2x) while preserving the model accuracy.
研究动机与目标
- 通过利用丰富的 LAN 带宽,推动在联邦学习中减少 WAN 瓶颈和成本。
- 提出一个分层的 LAN-WAN FL 设计,以提升收敛速度并降低 WAN 流量。
- 开发具备 LAN 域聚合、P2P 直连的局域网内拓扑以及动态设备选择以应对 LAN 异质性的 LanFL。
- 在 Non-IID 数据集上评估 LanFL,以量化加速、WAN 流量下降和成本节省。
提出的方法
- 提出在 LAN 域之间进行分层聚合并由中心云编排者协调的 LAN 感知 FL。
- 设计 LanFL,在局域网内通信中具备两种聚合拓扑:参数服务器 (PS) 和 Ring-AllReduce,根据接入点(AP)拓扑和吞吐量在每个 LAN 內进行选择。
- 引入设备回合(RL)和本地轮次(E)的调优策略,以在 LAN 内平衡速度和准确性。
- 实现类似 FedAvg 的两级工作流,其中 LAN 域聚合频繁发生(局域网内),云级聚合较少发生(跨 LAN)。
- 按 LAN 动态选择参与设备,以在异质 LAN 域之间平衡吞吐量。
- 通过 PS 或 Ring 的吞吐方程来建模局域网内的通信时间 com_T_L,并通过模型大小和带宽 BW 来计算 WAN 通信时间 com_T_W,遵循已建立的 FL 公式。
- 在 FEMNIST 和 CelebA 数据集上使用 LEAF 基于 Non-IID 的拆分进行实验评估,将 LanFL 与以 WAN 为驱动的 FL 基线进行比较。
实验结果
研究问题
- RQ1面向 LAN 的分层聚合是否能相对于仅 WAN 的 FL 提升收敛速度?
- RQ2LAN 内部拓扑(PS 与 Ring)如何影响 LAN 吞吐量和整体训练时间?
- RQ3跨 LAN 的异质性如何影响收敛,动态设备选择是否能缓解慢步者?
- RQ4与传统 FL 相比,LanFL 在 WAN 流量和金钱成本方面的影响是什么?
- RQ5在跨 LAN 的 Non-IID 数据分布下,LanFL 是否能保持模型精度?
主要发现
- LanFL 在保持准确性的同时显著加快模型收敛(1.5×–6.0×),降低 WAN 流量(18.3×–75.6×)和金钱成本(3.8×–27.2×)。
- 与 WAN-FL 基线相比,LanFL 在 FEMNIST 和 CelebA 上实现更快的收敛和更低的 WAN 使用。
- LAN 内部拓扑(PS 与 Ring)和 AP 容量配置分析使吞吐量更高、LAN 带宽利用更好。
- 动态LAN域设备选择减轻来自异质性的慢步者效应并保持 LAN 之间的同步进展。
- 该框架依赖于 LAN 内部的本地高频聚合和跨 WAN 的全局低频聚合,从而减少收敛所需的轮次。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。