QUICK REVIEW

[论文解读] Adaptive Federated Optimization

Sashank J. Reddi, Zachary Charles|arXiv (Cornell University)|Feb 29, 2020

Privacy-Preserving Technologies in Data参考文献 45被引用 128

一句话总结

本论文在 FedOpt 框架内提出用于联邦学习的自适应服务端优化器（FedAdagrad、FedAdam、FedYogi），给出非凸设置的收敛性分析，并在跨设备任务中展示出色的经验性能和更易调参。

ABSTRACT

Federated learning is a distributed machine learning paradigm in which a large number of clients coordinate with a central server to learn a model without sharing their own training data. Standard federated optimization methods such as Federated Averaging (FedAvg) are often difficult to tune and exhibit unfavorable convergence behavior. In non-federated settings, adaptive optimization methods have had notable success in combating such issues. In this work, we propose federated versions of adaptive optimizers, including Adagrad, Adam, and Yogi, and analyze their convergence in the presence of heterogeneous data for general non-convex settings. Our results highlight the interplay between client heterogeneity and communication efficiency. We also perform extensive experiments on these methods and show that the use of adaptive optimizers can significantly improve the performance of federated learning.

研究动机与目标

解决异构联邦数据下 FedAvg 的收敛性与调参挑战。
提出一个统一的 FedOpt 框架，使服务端自适应成为可能。
在非凸的 FL 设置中分析自适应服务端优化的收敛性。
在图像/文本任务和基准数据集上进行自适应联邦优化器的实证验证。

提出的方法

通用的 FedOpt 框架：服务器更新对平均客户端更新向量应用基于梯度的优化器。
用 ServerOpt 作为自适应优化器（Adagrad、Adam、Yogi），ClientOpt 为 SGD 进行特化 FedOpt。
在非凸假设下给出收敛性分析，假设全参与（可扩展到部分参与）。
显示 FedAvg 是一种特殊情况：在客户端和服务器上使用 SGD，学习率为 1。
推导推论，说明具体的收敛速率和参数选择（η、η_l、τ）。
在七个 FL 任务、五个数据集上进行实验，比较 FedAdagrad、FedAdam、FedYogi 与 FedAvg、FedAvgM、SCAFFOLD。

实验结果

研究问题

RQ1自适应服务端优化是否能在异构数据的联邦学习中改善收敛性？
RQ2本地（客户端）更新与服务端自适应性如何相互作用以影响收敛性和通信效率？
RQ3在跨设备 FL 中，自适应联邦优化器是否提供更易调参且具有更好经验性能？

主要发现

Task	FedAdagrad	FedAdam	FedYogi	FedAvgM	FedAvg
CIFAR-10	72.1	77.4	78.0	77.4	72.8
CIFAR-100	47.9	52.5	52.4	52.4	44.7
EMNIST CR	85.1	85.6	85.5	85.2	84.9
Shakespeare	57.5	57.0	57.2	57.3	56.9
SO NWP	23.8	25.2	25.2	23.8	19.5
SO LR	67.1	65.8	65.9	36.9	30.0
EMNIST AE	4.20	1.01	0.98	1.65	6.47

自适应联邦优化器在多个任务上显著超过非自适应基线，尤其是在稀疏梯度设置，如 Stack Overflow NWP 与 LR。
FedAdam 和 FedYogi 在大多数任务中提供更快的初始收敛和比 FedAvgM 更易调参。
理论结果显示，在非凸设置下 Adagrad、Adam、Yogi 作为服务端优化器具有收敛保证，速率与已知的非凸 FL 基准相符。
增加本地更新（K）可减少通信轮数，代价由客户端异质性（σ_g）影响的权衡。
经验基准和开源实现使跨 FL 方法可重复比较。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。