[论文解读] Federated Learning of Deep Networks using Model Averaging
本文提出联邦学习,一种去中心化的训练方法,通过聚合移动设备上的模型更新来训练深度神经网络,而无需集中化数据,利用模型平均技术在极少通信量下实现高精度。即使在非独立同分布(non-IID)和数据分布不均衡的情况下,该方法也将训练LSTM语言模型所需的通信轮次减少了100倍。
Modern mobile devices have access to a wealth of data suitable for learning models, which in turn can greatly improve the user experience on the device. For example, language models can improve speech recognition and text entry, and image models can automatically select good photos. However, this rich data is often privacy sensitive, large in quantity, or both, which may preclude logging to the data-center and training there using conventional approaches. We advocate an alternative that leaves the training data distributed on the mobile devices, and learns a shared model by aggregating locally-computed updates. We term this decentralized approach Federated Learning. We present a practical method for the federated learning of deep networks that proves robust to the unbalanced and non-IID data distributions that naturally arise. This method allows high-quality models to be trained in relatively few rounds of communication, the principal constraint for federated learning. The key insight is that despite the non-convex loss functions we optimize, parameter averaging over updates from multiple clients produces surprisingly good results, for example decreasing the communication needed to train an LSTM language model by two orders of magnitude.
研究动机与目标
- 解决在数据具有隐私敏感性且分布于移动设备时,训练高质量深度学习模型的挑战。
- 克服因数据隐私、数据量庞大及传输成本过高而限制集中式训练在移动环境中的应用。
- 开发一种实用的联邦训练方法,即使在设备间存在非独立同分布和数据分布不均衡的情况下,仍能保持有效性。
- 最小化联邦训练中的通信轮次,因为这是实际部署中的关键瓶颈。
- 证明简单地对本地更新进行参数平均,即可在深度网络上实现优异性能,即使在非凸优化景观下亦然。
提出的方法
- 在单个移动设备上使用其私有的本地数据,本地训练深度神经网络。
- 在中央参数服务器上通过全局模型平均聚合各设备本地计算的模型更新。
- 在每个设备上使用带本地更新的随机梯度下降(SGD),随后定期对模型权重进行平均。
- 采用客户端采样策略,即每轮通信仅让部分设备参与,以减少开销。
- 利用模型平均对客户端间非独立同分布和数据分布不均衡的鲁棒性。
- 通过最小化达到高模型精度所需的轮次数,优化通信效率。
实验结果
研究问题
- RQ1在具有隐私敏感数据的去中心化联邦学习环境中,模型平均能否有效训练深度神经网络?
- RQ2联邦学习在典型移动设备中常见的非独立同分布和数据分布不均衡条件下表现如何?
- RQ3通过模型平均,联邦学习中的通信效率可提升到何种程度?
- RQ4尽管存在非凸优化和数据异质性,简单的参数平均是否能实现与集中式训练相当的性能?
- RQ5联邦学习能否在远少于传统方法所需通信轮次的情况下,实现高质量模型?
主要发现
- 即使在非独立同分布和数据分布不均衡的数据分布下,对本地训练模型进行模型平均,仍可在深度网络上实现高性能。
- 联邦学习方法将训练LSTM语言模型所需的通信轮次减少了两个数量级。
- 该方法在深度学习损失函数具有非凸性质的情况下,依然保持鲁棒且有效。
- 可通过极小的数据传输量训练出高质量模型,使该方法适用于资源受限且对隐私敏感的移动环境。
- 该方法使设备端学习的实用部署成为可能,而无需将数据发送至中央服务器。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。