[论文解读] Vertical Federated Learning: Challenges, Methodologies and Experiments
这篇论文提出一个通用的垂直联邦学习(VFL)框架,将其与水平联邦学习(HFL)进行对比,识别核心挑战,提出解决方案,并通过真实世界数据集(Adult 和 Avazu)的实验进行验证。
Recently, federated learning (FL) has emerged as a promising distributed machine learning (ML) technology, owing to the advancing computational and sensing capacities of end-user devices, however with the increasing concerns on users' privacy. As a special architecture in FL, vertical FL (VFL) is capable of constructing a hyper ML model by embracing sub-models from different clients. These sub-models are trained locally by vertically partitioned data with distinct attributes. Therefore, the design of VFL is fundamentally different from that of conventional FL, raising new and unique research issues. In this paper, we aim to discuss key challenges in VFL with effective solutions, and conduct experiments on real-life datasets to shed light on these issues. Specifically, we first propose a general framework on VFL, and highlight the key differences between VFL and conventional FL. Then, we discuss research challenges rooted in VFL systems under four aspects, i.e., security and privacy risks, expensive computation and communication costs, possible structural damage caused by model splitting, and system heterogeneity. Afterwards, we develop solutions to addressing the aforementioned challenges, and conduct extensive experiments to showcase the effectiveness of our proposed solutions.
研究动机与目标
- 提出一个通用的 VFL 框架并澄清与 HFL 的差异。
- 识别 VFL 在安全/隐私、计算/通信、结构和系统异质性方面的挑战。
- 开发并讨论这些挑战的解决方案。
- 通过真实数据集的实验来展示所提方案的有效性。
提出的方法
- 将七步的通用 VFL 工作流定义为(PSI, BM-FP, forward transmission, TM-FP, TM-BP, backward transmission, BM-BP)。
- 比较 VFL 与 HFL 在数据特征、交换信息及模型结构方面。
- 讨论包含 DP、安全多方计算(Secure MPC)和同态加密(Homomorphic Encryption)及其权衡的隐私保护选项。
- 提出改进的通信方案:传输压缩、模型剪枝和数据采样。
- 通过智能分配和基于历史的更新,解决具有异质性的异步 VFL 问题。
- 分析分割设计对通信、隐私和模型性能的影响。
实验结果
研究问题
- RQ1与水平 FL 相比,垂直联邦学习有哪些独特挑战?
- RQ2如何在不付出过高代价的情况下,在 VFL 中维持隐私与安全?
- RQ3如何在保持模型性能的同时降低 VFL 的通信与计算成本?
- RQ4跨参与方分割模型的方式如何影响隐私、效率和准确性?
主要发现
- 提出一个通用的 VFL 框架并识别与 HFL 的关键差异。
- 隐私保护技术(DP、SMC、HE)在 VFL 的效用、安全性与效率方面存在权衡。
- 压缩、剪枝和数据采样可以显著降低通信成本,性能影响取决于设置且可衡量。
- 分割设计影响计算/通信成本与模型性能,较深的分割通常增加成本,且可能降低准确性。
- 在 Adult 与 Avazu 数据集的实验显示在不同配置下,隐私水平、压缩与 AUC 性能之间的关系。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。