[论文解读] Practical Federated Gradient Boosting Decision Trees
该论文提出 SimFL,一种实用的联邦梯度提升决策树框架,通过局部敏感哈希(LSH)在不暴露原始数据的前提下共享相似性信息。通过在 LSH 衍生的相似性上使用加权梯度提升(WGB),SimFL 在保持低计算与通信开销的同时,实现了接近集中式训练的高模型准确率,在宽松隐私约束下,其效率与预测性能均优于现有方法。
Gradient Boosting Decision Trees (GBDTs) have become very successful in recent years, with many awards in machine learning and data mining competitions. There have been several recent studies on how to train GBDTs in the federated learning setting. In this paper, we focus on horizontal federated learning, where data samples with the same features are distributed among multiple parties. However, existing studies are not efficient or effective enough for practical use. They suffer either from the inefficiency due to the usage of costly data transformations such as secret sharing and homomorphic encryption, or from the low model accuracy due to differential privacy designs. In this paper, we study a practical federated environment with relaxed privacy constraints. In this environment, a dishonest party might obtain some information about the other parties' data, but it is still impossible for the dishonest party to derive the actual raw data of other parties. Specifically, each party boosts a number of trees by exploiting similarity information based on locality-sensitive hashing. We prove that our framework is secure without exposing the original record to other parties, while the computation overhead in the training process is kept low. Our experimental studies show that, compared with normal training with the local data of each party, our approach can significantly improve the predictive accuracy, and achieve comparable accuracy to the original GBDT with the data from all parties.
研究动机与目标
- 解决现有水平联邦 GBDT 方法因依赖昂贵密码学技术或差分隐私而导致的效率低下与准确率低下的问题。
- 在原始数据保持隐藏但可共享有用相似性信息的宽松隐私约束下,设计一种实用的 GBDT 联邦学习框架。
- 通过共享相似性模式而非原始数据,实现跨参与方便的协同树构建,从而提升模型准确率。
- 通过避免秘密共享或同态加密,改用高效的 LSH 与轻量级通信,降低训练开销。
提出的方法
- 利用局部敏感哈希(LSH)在不暴露原始特征值的前提下,计算并交换数据参与方便的相似性签名。
- 利用基于 LSH 的相似性信息,在具有有界误差保证的加权梯度提升(WGB)框架中指导树分裂决策。
- 设计一种新颖的 WGB 方法,对相似性更高的样本赋予更高权重,从而实现使用分布式数据的有效模型训练。
- 通过确保任何一方都无法重构另一方的原始数据(即使为恶意方),保障隐私,原因在于 LSH 的单向性及无直接数据传输。
- 将通信限制在仅相似性签名与模型更新,使每棵树的通信成本低于 10MB。
- 通过一次 LSH 预处理生成可重用的相似性签名,将预处理成本分摊至多次训练运行。
实验结果
研究问题
- RQ1在不依赖同态加密或秘密共享等昂贵密码学原原子的情况下,联邦 GBDT 框架能否实现高预测准确率?
- RQ2从 LSH 衍生的相似性信息在提升水平划分数据的模型泛化能力方面有多有效?
- RQ3在宽松隐私模型下,联邦 GBDT 训练中隐私、准确率与效率之间的权衡如何?
- RQ4轻量级、通信高效的框架能否在训练速度与模型准确率两方面均优于现有方法?
- RQ5所提出方法在不同参与方数量与数据划分比例下的稳定性与可扩展性如何?
主要发现
- SimFL 的测试误差率始终低于 SOLO(本地独立训练),且在 HIGGS 数据集上与 ALL-IN(集中式训练)相比最大差距仅 1.3%,表现接近集中式训练。
- 在 SUSY 数据集上,SimFL 的测试误差为 29.3%,优于 SOLO 的 31.4%,与 ALL-IN 的 29.5% 几乎持平,表明在数据分布不均情况下仍具强大性能。
- SimFL 的训练时间在 SOLO 的 10% 以内,且显著快于 ALL-IN,HIGGS 数据集上的中位训练时间为 44.8 秒(ALL-IN 为 226.6 秒)。
- 每棵树的通信成本低于 10MB,远低于依赖加密方法需传输大密钥的方案。
- 框架在不同参与方数量与数据划分比例下均保持稳定,多次运行结果方差低。
- 预处理成本通过多次训练运行分摊,使其适用于超参数调优与迭代式模型开发。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。