QUICK REVIEW

[论文解读] Improving Federated Learning Personalization via Model Agnostic Meta Learning

Yihan Jiang, Jakub Konečný|arXiv (Cornell University)|Sep 27, 2019

Privacy-Preserving Technologies in Data参考文献 22被引用 368

一句话总结

论文表明 Federated Averaging (FedAvg) 可以被解释为元学习算法，并通过将FedAvg与微调阶段（Reptile/Adam）相结合来实现个性化的 Personalized FedAvg，从而在非独立同分布的联邦学习设置中提高个性化、初始模型质量和收敛速度。

ABSTRACT

Federated Learning (FL) refers to learning a high quality global model based on decentralized data storage, without ever copying the raw data. A natural scenario arises with data created on mobile phones by the activity of their users. Given the typical data heterogeneity in such situations, it is natural to ask how can the global model be personalized for every such device, individually. In this work, we point out that the setting of Model Agnostic Meta Learning (MAML), where one optimizes for a fast, gradient-based, few-shot adaptation to a heterogeneous distribution of tasks, has a number of similarities with the objective of personalization for FL. We present FL as a natural source of practical applications for MAML algorithms, and make the following observations. 1) The popular FL algorithm, Federated Averaging, can be interpreted as a meta learning algorithm. 2) Careful fine-tuning can yield a global model with higher accuracy, which is at the same time easier to personalize. However, solely optimizing for the global model accuracy yields a weaker personalization result. 3) A model trained using a standard datacenter optimization method is much harder to personalize, compared to one trained using Federated Averaging, supporting the first claim. These results raise new questions for FL, MAML, and broader ML research.

研究动机与目标

在数据异质性背景下，激励并形式化在联邦学习中实现个性化的需求。
揭示 FedAvg 与类似 MAML 的元学习方法之间的联系。
提出基于 FedAvg 的两阶段方法（Personalized FedAvg），以优化初始模型质量、个性化和快速收敛。
在实证上证明 FedAvg 天生优化个性化性能，且微调阶段提升了个性化的稳定性和有效性。
强调全局模型精度不一定代表强个性化，并讨论对 FL 与 MAML 研究的影响。

提出的方法

将 FedAvg 解释为元学习过程；将 FedAvg 与 Reptile 及一阶/二阶 MAML 成分联系起来。
在某些条件下证明 FedAvg 等同于 FedSGD 与 FOMAML 更新的线性组合。
提出 Personalized FedAvg： (i) 在服务器端运行带有多轮本地训练和动量的 FedAvg； (ii) 切换到类似 Reptile 的微调，使用小的 K 和 Adam 以改善初始模型； (iii) 使用与训练相同的客户端优化器继续进行个性化。

实验结果

研究问题

RQ1FedAvg 是否可以被解释为面向个性化的联邦学习元学习算法？
RQ2本地训练轮次 K 与优化器的选择如何影响个性化与初始模型质量？
RQ3两阶段训练（FedAvg 训练后再用 Reptile/Adam 微调）是否提升了联邦学习中的初始与个性化性能？
RQ4在不同的全局数据场景下（客户端数据可用性和非独立同分布设置），个性化性能如何变化？

主要发现

Experiment / Row Description	Initial Acc	Personalized Acc	Epochs/Notes (or equivalent)
EMNIST-62 FedAvg E=2 (5 clients/round)	0.7473(0.0260)	0.8292(0.0061)	310.0/63.6
EMNIST-62 FedAvg E=5 (5 clients/round)	0.8028(0.0512)	0.8712(0.0049)	111.1/33.9
EMNIST-62 FedAvg E=10 (5 clients/round)	0.7879(0.0316)	0.8820(0.0023)	137.5/30.0
EMNIST-62 FedAvg E=20 (5 clients/round)	0.7430(0.0309)	0.8782(0.0021)	152.5/32.2
EMNIST-62 FedAvg E=2 (20 clients/round)	0.8403(0.0173)	0.8957(0.0011)	82.5/50.0
EMNIST-62 FedAvg E=5 (20 clients/round)	0.8471(0.0084)	0.9057(0.0017)	65.6/31.25
EMNIST-62 FedAvg E=10 (20 clients/round)	0.8480(0.0036)	0.9032(0.0017)	68.7/25.0
EMNIST-62 FedAvg E=20 (20 clients/round)	0.8391(0.0081)	0.8953(0.0022)	82.1/46.4
Shakespeare (5 clients/round) FedAvg results show similar trend but are not deeply detailed in this table	-	-	-
Shakespeare (20 clients/round) FedAvg results show similar trend but are not deeply detailed in this table	-	-	-

FedAvg 可以被视为一种天生优化个性化性能而不仅仅是全局准确性的元学习算法。
增大本地训练轮次 E 在一定程度上提升个性化，但可能使初始模型不稳定；两阶段方法有助于稳定并提升个性化。
使用 Reptile(K) 和 Adam 对初始模型进行微调，可以在更广的超参数范围内获得更好且更稳定的个性化性能。
在集中训练下得到的中心化初始模型比在 FedAvg 下训练的模型更难实现个性化，尤其在实际个性化场景中。
在相同精度下，不同的全局模型可能具备截然不同的个性化能力，强调在 FL 评估中关注个性化指标的必要性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。