[论文解读] DriftGuard: Mitigating Asynchronous Data Drift in Federated Learning
DriftGuard 采用受 Mixture-of-Experts 启发的架构,在联邦学习中解耦全局与分组特定更新,降低再训练成本,同时在异步数据漂移下维持或提升精度。
In real-world Federated Learning (FL) deployments, data distributions on devices that participate in training evolve over time. This leads to asynchronous data drift, where different devices shift at different times and toward different distributions. Mitigating such drift is challenging: frequent retraining incurs high computational cost on resource-constrained devices, while infrequent retraining degrades performance on drifting devices. We propose DriftGuard, a federated continual learning framework that efficiently adapts to asynchronous data drift. DriftGuard adopts a Mixture-of-Experts (MoE) inspired architecture that separates shared parameters, which capture globally transferable knowledge, from local parameters that adapt to group-specific distributions. This design enables two complementary retraining strategies: (i) global retraining, which updates the shared parameters when system-wide drift is identified, and (ii) group retraining, which selectively updates local parameters for clusters of devices identified via MoE gating patterns, without sharing raw data. Experiments across multiple datasets and models show that DriftGuard matches or exceeds state-of-the-art accuracy while reducing total retraining cost by up to 83%. As a result, it achieves the highest accuracy per unit retraining cost, improving over the strongest baseline by up to 2.3x. DriftGuard is available for download from https://github.com/blessonvar/DriftGuard.
研究动机与目标
- 在现实世界的联邦学习(FL)部署中动机与应对异步数据漂移。
- 提出一个可扩展的持续学习框架,将全球可迁移知识与分组特定适应分离。
- 通过有选择地更新全局共享参数和分组特定局部参数来降低再训练成本。
- 实现设备聚类与两级再训练,以在精度与系统开销之间取得平衡。
提出的方法
- 采用将参数分成共享(全局)和本地(分组特定)分支的 Mixture-of-Experts (MoE) 架构。
- 使用分支级软门控与层级硬门控动态激活专家并按数据分布对设备进行聚类。
- 在服务器端利用来自设备观测的聚合门控矩阵对设备进行聚类,形成具有相似数据漂移的分组。
- 在每个时间步生成两种再训练配置:在检测到全局漂移时对全局参数进行全局再训练;在漂移较大分组内对局部参数进行分组再训练。
- 以两级方式进行再训练,仅更新相关的参数子集,降低 FLOPs。
- 在多组模型–数据集对和基于 Raspberry Pi 的物联网原型上评估 DriftGuard,并与传统的联邦学习(FCL)与聚类基线进行对比。
实验结果
研究问题
- RQ1如何在不产生高开销的情况下, effectively decoupled FL 再训练以处理异步数据漂移?
- RQ2MoE 基于架构是否能够实现选择性的全局与分组再训练,在降低成本的同时保持高精度?
- RQ3按数据分布对设备进行聚类是否能在异步环境中提升再训练效率与精度?
- RQ4在异步漂移情况下,全局参数更新与分组特定更新的权衡是什么?
- RQ5DriftGuard 在多数据集、模型与真实世界物联网硬件上表现如何?
主要发现
- DriftGuard 在与强 baselines 相比具有可比或更高的精度,同时将总再训练成本降低多达 83%。
- DriftGuard 在每次再训练成本下达到最高精度,最高比最强基线高出约 2.3×。
- 在真实世界的物联网原型(20 台 Raspberry Pi 4 设备)上,DriftGuard 取得最高精度并将再训练时间缩短多达 20%。
- 两级再训练(全局共享参数与分组特定局部参数)使在异步漂移下的高效适应成为可能,同时实现全局可迁移知识的共享。
- 设备分组在不共享原始数据的前提下进行,利用 MoE 门控输出对相似的数据分布进行聚类。
- 评估覆盖三个数据集(DG5、PACS、DomainNet)和四种模型变体(cResNet-S/M、cViT-S/M)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。