[论文解读] DFRD: Data-Free Robustness Distillation for Heterogeneous Federated Learning
DFRD 引入面向数据无关的鲁棒性蒸馏,用于存在数据与模型异质性的联邦学习;通过带 EMA 的条件生成器、动态加权和标签采样,在不使用公开数据的情况下从异质客户端蒸馏知识。
Federated Learning (FL) is a privacy-constrained decentralized machine learning paradigm in which clients enable collaborative training without compromising private data. However, how to learn a robust global model in the data-heterogeneous and model-heterogeneous FL scenarios is challenging. To address it, we resort to data-free knowledge distillation to propose a new FL method (namely DFRD). DFRD equips a conditional generator on the server to approximate the training space of the local models uploaded by clients, and systematically investigates its training in terms of fidelity, transferability} and diversity. To overcome the catastrophic forgetting of the global model caused by the distribution shifts of the generator across communication rounds, we maintain an exponential moving average copy of the generator on the server. Additionally, we propose dynamic weighting and label sampling to accurately extract knowledge from local models. Finally, our extensive experiments on various image classification tasks illustrate that DFRD achieves significant performance gains compared to SOTA baselines.
研究动机与目标
- 解决联邦学习中的数据异质性与模型异质性问题。
- 在客户端具有不同数据分布和体系结构时,实现鲁棒的全局模型训练。
- 利用数据无关的知识蒸馏,在不获取私有数据的情况下近似本地训练空间。
- 通过 EMA 生成器与改进数据采样策略,缓解灾难性忘却。
提出的方法
- 在服务端部署一个条件生成器 G(w),通过噪声 z 和标签 y 产生合成数据 s。
- 通过在所选客户端上最小化生成数据的 logits 与真实标签之间的 CE 损失来优化保真度:L_fid = CE( sum_i in S_t τ_i,y f_i(s, θ_i), y )。
- 通过基于 KL 散度的对抗转移损失 L_tran 提升可转移性,以对齐全局 logits 与集成 logits。
- 通过基于批次的成对距离目标引入多样性损失 L_div,促进合成数据的多样性。
- 通过维持生成器 G ˜ 的 EMA 拷贝并用其数据进行鲁棒蒸馏来缓解分布偏移:EMA 更新 w˜^t = λ w˜^{t-1} + (1-λ) w^t。
- 使用动态加权 τ_i,y 和按客户端标签计数成比例的标签采样 p(y),以更好地从本地模型中提取知识。
- 通过联合优化全局模型 logits、集合 logits 与 EMA 生成数据,实现鲁棒的模型蒸馏。
实验结果
研究问题
- RQ1数据无关的知识蒸馏如何在同时存在数据异质性和模型异质性的情况下促进鲁棒的全局模型?
- RQ2条件生成器在避免灾难性忘却的同时,是否能够忠实地近似异质客户端的本地训练空间?
- RQ3动态加权与标签采样是否提升了在数据无关 FL 中从多样本本地模型提取知识的效果?
- RQ4与标准 FedAvg 基线相比,作为微调方法时,DFRD 在 PT 基础的(异质性)FL 方法中的表现如何?
主要发现
- DFRD 在大量图像分类实验中相对于 SOTA 基线显示显著的性能提升。
- DFRD 对数据异质性和模型异质性的变化具有鲁棒性,在多数据集上优于基于 PT 的方法。
- EMA 生成器通过减少由于生成器分布偏移引起的灾难性忘却,帮助稳定全局模型更新。
- 动态加权与标签采样提升了从本地模型提取知识的效果,推动全局准确率提升。
- 作为微调方法使用时,DFRD 能将全局模型的性能提升超过基于 PT 的初步方法。
- 总体而言,DFRD 在多样化数据集与异质性设置下,稳定提升全局准确率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。