[论文解读] Multi-Participant Multi-Class Vertical Federated Learning
MMVFL 引入一个多参与者垂直联邦学习的隐私保护框架,适用于多类问题,允许标签拥有者向其他参与者共享标签并执行特征选择以降低通信开销。它在多类性能上与监督基线相当。
Federated learning (FL) is a privacy-preserving paradigm for training collective machine learning models with locally stored data from multiple participants. Vertical federated learning (VFL) deals with the case where participants sharing the same sample ID space but having different feature spaces, while label information is owned by one participant. Current studies of VFL only support two participants, and mostly focus on binaryclass logistic regression problems. In this paper, we propose the Multi-participant Multi-class Vertical Federated Learning (MMVFL) framework for multi-class VFL problems involving multiple parties. Extending the idea of multi-view learning (MVL), MMVFL enables label sharing from its owner to other VFL participants in a privacypreserving manner. To demonstrate the effectiveness of MMVFL, a feature selection scheme is incorporated into MMVFL to compare its performance against supervised feature selection and MVL-based approaches. Experiment results on real-world datasets show that MMVFL can effectively share label information among multiple VFL participants and match multi-class classification performance of existing approaches.
研究动机与目标
- 将垂直联邦学习(VFL)扩展到具有多个参与者的多类问题。
- 实现从标签拥有者到其他参与者的隐私保护标签共享。
- 纳入特征选择以评估并降低通信与计算成本。
- 提供一个机制,以便评估每个参与者的特征重要性,从而提升 VFL 的效率。
- 在真实数据集上展示具有竞争力的多类分类性能。
提出的方法
- 将 MMVFL 建模为一个受多视角学习启发的 VFL 框架,每个参与者有一个独立的模型。
- 使用基于稀疏学习的无监督特征选择,通过包含 l2,1 正则项的优化来计算每个参与者的特征重要性(方程(Eq. 1))。
- 通过引入伪标签矩阵 Z_k 和一个与标签拥有者的真实标签 Y 相同的共享 Z 来实现标签共享(方程(Eq. 3))。
- 用惩罚项放松硬约束(方程(Eq. 4)),并通过交替优化求解更新 W_k(方程(Eq. 8))、Z_k(方程(Eq. 11/12))和 Z(方程(Eq. 14))。
- 提供一个并行的、联邦训练过程(算法 1),其中参与者更新本地的 W_k、Z_k,以及一个中心的 Z。
- 讨论收敛性(目标函数非增)和时间复杂度,由最慢的参与者主导,迭代的复杂度为 O((max_k d_k)^3)。
实验结果
研究问题
- RQ1MMVFL 是否能够在保留隐私的前提下实现具有超过两个参与者的有效多类 VFL?
- RQ2从标签拥有者向其他参与者进行标签共享是否能提升 VFL 的多类分类性能?
- RQ3在 MMVFL 中基于特征重要性的特征选择是否可行且有益,以降低通信和计算?
主要发现
| 数据集 | P1 | P2 | P3 | P4 | P5 | P6 | 平均 |
|---|---|---|---|---|---|---|---|
| Handwritten | 1.46 | -2.39 | 0.76 | 6.48 | 0.77 | - | 1.42 |
| Handwritten | 1.99 | -2.31 | 1.03 | 9.67 | 1.16 | - | 2.31 |
| Caltech7 | 0.69 | 2.16 | 1.55 | -1.22 | -6.29 | -4.12 | -1.21 |
| Caltech7 | 0.41 | 2.82 | 2.61 | -1.18 | -5.71 | -4.20 | -0.88 |
- MMVFL 可实现标签共享而不暴露原始数据,并在多类性能上与有监督的基线相比具有竞争力。
- 在手写数据上,MMVFL 相较于两个基线在所有参与者上的平均提升最多约 2.31 个百分点。
- 在 Caltech7 上,MMVFL 的表现平均接近或略低于有监督基线,体现了在隐私保护设置下的竞争性结果。
- 基于特征重要性的筛选以丢弃信息量较少的特征在许多情形下可降低通信和计算量,同时保持准确性。
- 基于 MVL 的监督(supMVLFL)可以提升相对于非 MVL 基线的性能,而 MMVFL 在不共享原始数据的情况下也能实现类似的提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。