[论文解读] Parallel Distributed Logistic Regression for Vertical Federated Learning without Third-Party Coordinator
本文提出了一种用于纵向联邦学习的并行分布式逻辑回归框架,消除了对第三方协调器的需要,利用参数服务器架构实现跨多台服务器的可扩展训练。
Federated Learning is a new distributed learning mechanism which allows model training on a large corpus of decentralized data owned by different data providers, without sharing or leakage of raw data. According to the characteristics of data dis-tribution, it could be usually classified into three categories: horizontal federated learning, vertical federated learning, and federated transfer learning. In this paper we present a solution for parallel dis-tributed logistic regression for vertical federated learning. As compared with existing works, the role of third-party coordinator is removed in our proposed solution. The system is built on the pa-rameter server architecture and aims to speed up the model training via utilizing a cluster of servers in case of large volume of training data. We also evaluate the performance of the parallel distributed model training and the experimental results show the great scalability of the system.
研究动机与目标
- 阐明并解决在不共享原始数据的前提下对纵向分布数据进行训练的问题。
- 开发适用于纵向联邦学习的并行分布式逻辑回归解决方案。
- 在保持隐私保障的同时消除对第三方协调器的依赖。
- 展示所提系统在大规模训练数据上的可扩展性。
提出的方法
- 采用基于参数服务器的架构来协调分布式优化。
- 实现为纵向联邦学习定制的并行分布式逻辑回归。
- 在 FL 工作流程中去除对受信任的第三方协调器的依赖。
- 利用服务器集群加速大规模数据的训练。
实验结果
研究问题
- RQ1在不影响模型性能与隐私的前提下,纵向联邦学习是否可以在没有第三方协调器的情况下进行?
- RQ2参数服务器架构如何影响纵向 FL 的训练速度与可扩展性?
- RQ3将逻辑回归训练分布到多台服务器对收敛性的影响?
- RQ4所提出的方法在可扩展性方面相较于现有依赖协调器的方法是否达到可扩展性性能?
主要发现
- 证明在纵向 FL 中无需第三方协调器即可实现并行分布式逻辑回归的可行性。
- 在使用服务器集群处理大规模训练数据时,系统的可扩展性得到体现。
- 验证纵向 FL 设置下并行分布式方法带来的性能提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。