[论文解读] DENSE: Data-Free One-Shot Federated Learning
DENSE 在不使用数据、一次性进行联邦学习,针对异构客户端模型,通过从客户端模型集合生成合成数据并将知识蒸馏到全局模型,分两个阶段完成。
One-shot Federated Learning (FL) has recently emerged as a promising approach, which allows the central server to learn a model in a single communication round. Despite the low communication cost, existing one-shot FL methods are mostly impractical or face inherent limitations, \eg a public dataset is required, clients' models are homogeneous, and additional data/model information need to be uploaded. To overcome these issues, we propose a novel two-stage extbf{D}ata-fre extbf{E} o extbf{N}e- extbf{S}hot federated l extbf{E}arning (DENSE) framework, which trains the global model by a data generation stage and a model distillation stage. DENSE is a practical one-shot FL method that can be applied in reality due to the following advantages: (1) DENSE requires no additional information compared with other methods (except the model parameters) to be transferred between clients and the server; (2) DENSE does not require any auxiliary dataset for training; (3) DENSE considers model heterogeneity in FL, \ie different clients can have different model architectures. Experiments on a variety of real-world datasets demonstrate the superiority of our method.For example, DENSE outperforms the best baseline method Fed-ADI by 5.08\% on CIFAR10 dataset.
研究动机与目标
- 在不使用辅助数据或共享敏感信息的前提下,推动实际可行的一次性联邦学习。
- 通过避免参数平均来实现客户端之间的模型异质性。
- 开发两阶段框架:从集合模型生成合成数据以及对全局模型的知识蒸馏。
- 确保隐私保护的数据生成,不暴露真实客户端数据。
- 在非IID、真实世界数据集和异质客户端架构上展示有效性。
提出的方法
- 阶段1:利用集合模型训练一个辅助生成器,以产生与客户端训练分布相似的合成数据,同时不暴露真实数据。
- 使用相似性(平均 logits)、稳定性(BN 统计)和可迁移性(边界感知损失)来优化生成器。
- 通过 KL 散度引入边界支持损失,以鼓励落在集合模型和全局模型决策边界之间的合成数据。
- 阶段2:利用合成数据,通过最小化集合 logits 与全局模型预测之间的 KL 散度,将知识从集成教师蒸馏到全局学生模型。
- 通过平均 logits 而非参数平均来聚合知识,从而支持模型异质性,允许异质客户端架构。
- 可选地将 DENSE 与不平衡学习技术(如 LDAM)结合,以在高度不均衡数据上进一步提升性能。
实验结果
研究问题
- RQ1一个数据自由、一轮联邦学习框架是否能够在不使用辅助数据或共享原始数据的情况下训练出强大的全局模型?
- RQ2是否可以通过集成蒸馏而非参数平均来支持客户端之间的模型异质性?
- RQ3在非IID设置下,合成数据生成和知识蒸馏的两阶段过程是否优于 FedAvg 和数据无基线?
- RQ4基于 BN 的稳定性与边界感知损失如何影响合成数据质量和最终全局模型?
- RQ5改变客户端数量并应用不平衡学习技术对 DENSE 性能有何影响?
主要发现
- DENSE 在多份真实世界数据集和非 IID 设置中,准确率高于强基线(如 Fed-ADI)。
- DENSE 始终优于 FedAvg,尤其在非 IID 和异构模型场景下。
- 两阶段方法实现了从异质客户端模型向单一全球模型的有效知识迁移,而无需对参数进行平均。
- 在不平衡数据中引入 LDAM 进一步提升性能,尤其是在高度偏斜的 CIFAR10 和 SVHN 设置上。
- 将 DENSE 扩展到多轮通信进一步提升准确性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。