QUICK REVIEW

[论文解读] Privacy-preserving Transfer Learning for Knowledge Sharing.

Xiawei Guo, Quanming Yao|arXiv (Cornell University)|Nov 23, 2018

Privacy-Preserving Technologies in Data参考文献 23被引用 15

一句话总结

本文提出了一种隐私保护的迁移学习框架，通过使用基于样本或基于特征的数据划分的集成堆叠技术，在差分隐私下提升了逻辑回归的性能。结果表明，在相同隐私预算下，基于特征的划分方式在更少样本下实现了更好的经验性能，并集成了假设迁移学习以支持跨组织应用，在MNIST、NEWS20以及来自RUIJIN数据集的真实世界糖尿病预测任务中均表现出色。

ABSTRACT

To meet the standard of differential privacy, noise is usually added into the original data, which inevitably deteriorates the predicting performance of subsequent learning algorithms. In this paper, motivated by the success of improving predicting performance by ensemble learning, we propose to enhance privacy-preserving logistic regression by stacking. We show that this can be done either by sample-based or feature-based partitioning. However, we prove that when privacy-budgets are the same, feature-based partitioning requires fewer samples than sample-based one, and thus likely has better empirical performance. As transfer learning is difficult to be integrated with a differential privacy guarantee, we further combine the proposed method with hypothesis transfer learning to address the problem of learning across different organizations. Finally, we not only demonstrate the effectiveness of our method on two benchmark data sets, i.e., MNIST and NEWS20, but also apply it into a real application of cross-organizational diabetes prediction from RUIJIN data set, where privacy is of significant concern.

研究动机与目标

解决由于注入噪声导致的差分隐私学习性能下降问题。
通过利用集成堆叠技术改进隐私保护机器学习。
在保持差分隐私的前提下，实现组织间的有效知识共享。
在相同隐私预算下，比较基于样本与基于特征划分的效率差异。
将假设迁移学习与差分隐私相结合，用于跨组织模型训练。

提出的方法

该方法使用集成堆叠技术，将多个在划分数据上训练的私有模型进行组合，以提升泛化能力。
数据通过按样本（在不同客户端之间）或按特征（在不同特征之间）进行划分，其中基于特征的划分被证明更具样本效率。
通过在训练过程中向模型梯度或参数添加校准后的噪声，实现差分隐私。
该方法集成了假设迁移学习，使模型能够在组织之间共享学习到的表征。
一个堆叠元学习器将基模型的预测结果组合，生成最终更准确的输出。
该框架在MNIST、NEWS20以及来自RUIJIN数据集的真实世界糖尿病预测任务上进行了评估。

实验结果

研究问题

RQ1在相同隐私预算下，基于特征的划分与基于样本的划分在样本效率方面有何差异？
RQ2堆叠方法能否提升差分隐私逻辑回归模型的预测性能？
RQ3在跨组织环境中，将假设迁移学习与差分隐私相结合的有效性如何？
RQ4该方法在基准数据集和真实世界数据集上的经验性能如何，尤其是在隐私约束下？
RQ5该方法能否在医疗等敏感应用中，在确保强隐私保障的同时保持高实用性？

主要发现

在相同隐私预算下，由于更高的样本效率，基于特征的划分在经验性能上优于基于样本的划分。
所提出的堆叠方法显著提升了差分隐私逻辑回归模型的预测准确率，相比基线私有模型表现更优。
该方法在MNIST和NEWS20基准数据集上均表现出强劲性能，且满足差分隐私要求。
在真实世界的RUIJIN糖尿病预测任务中，该框架成功实现了跨组织学习，同时有效保护了隐私。
将假设迁移学习与差分隐私相结合，显著提升了在联邦或分布式设置中隐私约束下的模型实用性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。