QUICK REVIEW

[论文解读] Federated Learning Based on Dynamic Regularization

Durmus Alp Emre Acar, Yue Zhao|arXiv (Cornell University)|Nov 8, 2021

Privacy-Preserving Technologies in Data参考文献 36被引用 114

一句话总结

FedDyn 在联邦学习中引入一个动态正则化，以使本地设备极小值与全局目标对齐，在凸和非凸设置下，在异质、部分参与和大规模分布式设备中实现更好的通信效率与收敛。

ABSTRACT

We propose a novel federated learning method for distributively training neural network models, where the server orchestrates cooperation between a subset of randomly chosen devices in each round. We view Federated Learning problem primarily from a communication perspective and allow more device level computations to save transmission costs. We point out a fundamental dilemma, in that the minima of the local-device level empirical loss are inconsistent with those of the global empirical loss. Different from recent prior works, that either attempt inexact minimization or utilize devices for parallelizing gradient computation, we propose a dynamic regularizer for each device at each round, so that in the limit the global and device solutions are aligned. We demonstrate both through empirical results on real and synthetic data as well as analytical results that our scheme leads to efficient training, in both convex and non-convex settings, while being fully agnostic to device heterogeneity and robust to large number of devices, partial participation and unbalanced data.

研究动机与目标

从通信效率角度动机化联邦学习，并解决本地极小值与全局极小值之间的不一致性。
引入一种动态正则化以引导设备更新朝向全局稳定点。
在部分参与和设备异质性下，提供凸和非凸场景的收敛性保证。
在真实数据和合成数据集上展示在相较基线的较低通信成本下的实证收益。

提出的方法

提出 FedDyn：在每一轮中，选定的一部分设备在本地带惩罚项的目标函数上优化，将经验损失与动态正则化结合。
动态正则化由基于设备梯度的线性项和将设备耦合到服务器模型的二次项组成。
设备更新满足修改后的最优性条件，逐步将局部极小点与全局稳定点对齐。
服务器聚合更新后的设备模型并更新全局模型以反映活跃参与者。
给出收敛性结果，凸和非凸设置下的 O(1/T) 速率，以及在某些强凸情形下的线性类似速率。
将通信成本与 FedAvg、FedProx 和 SCAFFOLD 进行比较，强调达到目标精度所需传输位数减少。

实验结果

研究问题

RQ1在动态更新的正则化下，能否确保设备层次的极值收敛到全局经验损失的驻点？
RQ2在部分参与和数据异质性条件下，FedDyn 能实现哪些凸与非凸的收敛速率？
RQ3在 IID、非 IID 和高度分布式设置下，与现有 FL 方法相比，FedDyn 在通信效率方面的表现如何？
RQ4在保持性能的同时，FedDyn 对设备异质性、部分参与和不平衡本地数据的鲁棒性如何？
RQ5在标准基准（MNIST、EMNIST、CIFAR-10/100、Shakespeare）上的实证结果是否支持理论收敛性声明？

主要发现

FedDyn 在凸和非凸设置下以 O(1/T) 轮数收敛到全局损失的驻点。
对于凸且局部损失平滑，若有 m 个设备、每轮有 P 个活跃，且数据均衡，平均损失度量为 O(1/T) sqrt(m/P)，相比先前方法如 SCAFFOLD 有所提升。
在非凸平滑设置下，FedDyn 在梯度范数的期望上获得 O(1/T) (m/P) 的速率。
在 MNIST、EMNIST、CIFAR-10/100 和 Shakespeare 上的实证结果显示，在各种参与和异质性情形下，相较于 FedAvg、FedProx 和 SCAFFOLD，通信成本显著降低。
FedDyn 对比其他方法需要的开销相近但收敛更快，且对超参数调整的鲁棒性，以及对部分参与、大规模设备数量和数据异质性的鲁棒性较强。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。