Skip to main content
QUICK REVIEW

[论文解读] A Scalable Approach for Privacy-Preserving Collaborative Machine Learning

Jinhyun So, Başak Güler|arXiv (Cornell University)|Nov 3, 2020
Privacy-Preserving Technologies in Data参考文献 37被引用 25
一句话总结

本文提出COPML,一种完全去中心化的隐私保护协作逻辑回归框架,利用编码理论对数据集进行秘密共享,并在多个参与方之间分发计算。该框架在提供信息论隐私保障(抵御具有无限计算能力的合谋攻击者)的同时,相比MPC基线方法实现了高达16.4倍的加速。

ABSTRACT

We consider a collaborative learning scenario in which multiple data-owners wish to jointly train a logistic regression model, while keeping their individual datasets private from the other parties. We propose COPML, a fully-decentralized training framework that achieves scalability and privacy-protection simultaneously. The key idea of COPML is to securely encode the individual datasets to distribute the computation load effectively across many parties and to perform the training computations as well as the model updates in a distributed manner on the securely encoded data. We provide the privacy analysis of COPML and prove its convergence. Furthermore, we experimentally demonstrate that COPML can achieve significant speedup in training over the benchmark protocols. Our protocol provides strong statistical privacy guarantees against colluding parties (adversaries) with unbounded computational power, while achieving up to $16 imes$ speedup in the training time against the benchmark protocols.

研究动机与目标

  • 使多个数据拥有者能够在不向其他参与方泄露各自数据集的情况下联合训练逻辑回归模型。
  • 解决现有基于MPC的方法在扩展到超过3–4个参与方时的局限性,实现可扩展的隐私保护协作学习。
  • 在保持强隐私保障的前提下,降低安全多方计算中的训练时间和通信开销。
  • 为具有无限计算能力的合谋攻击者提供信息论隐私保障。
  • 实现高效、去中心化的训练,且可随参与方数量线性扩展。

提出的方法

  • 客户端使用Shamir的秘密共享机制对其各自的数据集进行秘密共享,以支持分布式计算。
  • 该框架利用编码理论原理将数据集编码为编码形式,使得梯度计算可在编码后的数据上安全执行。
  • 训练过程通过在编码数据上进行分布式梯度下降实现,其计算结构与在未编码数据上的计算保持一致。
  • 系统利用多项式运算和MPC友好的近似方法(例如对Sigmoid函数的近似)以安全且可扩展的方式支持非线性运算。
  • 计算负载被分发至N个参与方,每个客户端承担总工作量的一小部分,从而降低单个客户端的计算时间。
  • 通过允许额外客户端的加入,框架在隐私性(合谋容忍度T)与并行化程度(单客户端计算负载)之间实现平衡。

实验结果

研究问题

  • RQ1是否能够实现完全去中心化的框架,将隐私保护协作学习扩展至超过4个参与方,同时保持信息论隐私?
  • RQ2编码理论的集成如何提升安全机器学习中的可扩展性,并降低通信与计算开销?
  • RQ3与现有基于MPC的基准相比,该框架在训练时间上能实现多大程度的加速?
  • RQ4隐私性(合谋容忍度T)与并行化程度(单客户端计算负载)之间的权衡如何影响系统性能?
  • RQ5在确保强隐私保障的前提下,该框架能否保持与传统逻辑回归相当的模型准确率?

主要发现

  • 在CIFAR-10和GISETTE数据集上,COPML相比最先进的MPC基线协议,训练时间最高可加速16.4倍。
  • 该框架保持了与传统逻辑回归相当的模型准确率,证明隐私保护训练不会损害预测性能。
  • 由于采用秘密共享与编码理论,系统对最多T个合谋参与方提供了信息论隐私保障,即使攻击者拥有无限计算能力也无能为力。
  • 随着参与方数量N的增加,单个客户端的计算负载按O(md²/N)下降,显著提升了并行化效率。
  • 编码开销随O(mdN)增长,对于小规模数据集而言成为主要瓶颈,限制了在低数据场景下的可扩展性。
  • 随着数据集规模增大,该框架表现出良好的可扩展性,且在数据维度增加时因负载分布更优而获得更高的加速比。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。