Skip to main content
QUICK REVIEW

[论文解读] Personalized Cross-Silo Federated Learning on Non-IID Data

Yutao Huang, Lingyang Chu|arXiv (Cornell University)|Jul 7, 2020
Privacy-Preserving Technologies in Data被引用 36
一句话总结

本文提出 FedAMP,一种用于非 IID 数据下的个性化跨工厂(cross-silo)联邦学习的注意力消息传递框架,能够在不使用单一全局模型的情况下实现对参与方之间的协作,并提供收敛性证明和在实证上的强结果。

ABSTRACT

Non-IID data present a tough challenge for federated learning. In this paper, we explore a novel idea of facilitating pairwise collaborations between clients with similar data. We propose FedAMP, a new method employing federated attentive message passing to facilitate similar clients to collaborate more. We establish the convergence of FedAMP for both convex and non-convex models, and propose a heuristic method to further improve the performance of FedAMP when clients adopt deep neural networks as personalized models. Our extensive experiments on benchmark data sets demonstrate the superior performance of the proposed methods.

研究动机与目标

  • 在客户端数据在不同机构间非独立同分布且多样化时,激发/提出个性化的跨工厂(cross-silo)FL 的动机。
  • 提出一种成对协作机制,避免单一全局模型。
  • 开发具备注意力消息传递机制的 FedAMP,以分享个性化知识。
  • 为凸和非凸设置提供收敛性保证,并为深度网络提供切实可行的启发式方法。

提出的方法

  • 建立一个个性化的联邦学习目标,将局部损失与基于注意力的成对正则化项相结合。
  • 使用一个会引入注意性的函数 A,满足单调递增、凹、可微分且 A(0)=0(典型选择:1 - exp(-||wi - wj||^2 / sigma))。
  • 提出一个增量优化过程:先通过对成对项的梯度下降更新中间变量 U,再通过对局部损失的近端步骤更新 W。
  • 在客户端-服务器设置中实现 FedAMP,为每个客户端提供个性化云模型,消息是邻居模型的凸组合。
  • 证明收敛性:对凸的 G(W) 收敛速率为 O(1/√K);对非凸的 G(W) 的梯度范数上界为 O(1/K)。
  • 提供 HeurFedAMP,一种基于余弦相似度的加权启发式方法,在将深度网络用作个性化模型时提升性能。

实验结果

研究问题

  • RQ1在非 IID 数据下,成对、基于相似性的客户端协作如何改善个性化模型?
  • RQ2FedAMP 是否能对凸和非凸的个性化模型收敛,以及收敛速率是多少?
  • RQ3注意力消息传递机制是否在标准非 IID 基准测试上实质性地优于全局模型基线和本地微调?
  • RQ4基于余弦相似度的启发式方法(HeurFedAMP)是否在深度神经网络中进一步提高性能?

主要发现

方法MNISTFMNISTEMNISTCIFAR100
Separate99.2781.6654.419.82
FedAvg99.3191.9474.3849.59
FedProx98.8190.1973.1446.50
FedAvg-FT98.9890.1770.5335.07
FedProx-FT98.7289.0269.4940.77
SCAFFOLD98.8989.0472.5143.06
APFL98.9391.0373.9549.02
FedAMP99.2292.0574.0745.68
HeurFedAMP99.2891.8074.0745.88
  • FedAMP 和 HeurFedAMP 在非 IID 数据上优于若干基线(FedAvg、FedProx、SCAFFOLD、APFL),在 IID 数据上仍与全局方法具有竞争力。
  • 在 IID 设置下,FedAMP/HeurFedAMP 在 MNIST、FMNIST、EMNIST、CIFAR100 上达到最佳或接近最佳的 BMTA(例如:表1:FedAMP 的 MNIST 99.22、FMNIST 92.05、EMNIST 74.07、CIFAR100 45.68;HeurFedAMP 的 99.28、91.80、74.07、45.88)。
  • 在病态非 IID 设置下,FedAMP 和 HeurFedAMP 维持强劲表现,缓解全局方法如 FedAvg 和 FedProx 中出现的不稳定性(参考表2)。
  • 该方法通过凸组合消息强制自适应的、相似客户端之间的协作,形成正反馈回路,将相似客户端聚集起来以实现更好的个性化。
  • 收敛性分析表明 FedAMP 对凸的 G(W) 收敛到一个最优点,对光滑的非凸 G(W) 收敛到一个驻点。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。