QUICK REVIEW

[论文解读] Learning Privately from Multiparty Data

Jihun Hamm, Paul Cao|arXiv (Cornell University)|Feb 10, 2016

Privacy-Preserving Technologies in Data参考文献 20被引用 59

一句话总结

本文提出了一种新颖的方法，可在不共享私有数据的前提下，从多个参与方本地训练的模型中训练出全局准确且具备差分隐私保护的分类器。通过在辅助无标签数据上使用基于集成的软标签，并最小化由类别概率加权的风险，该方法实现了 $O(\epsilon^{-2}M^{-2})$ 的泛化误差界，当参与方数量 $M$ 较大时，能够在极小性能损失下实现强隐私保护。

ABSTRACT

Learning a classifier from private data collected by multiple parties is an important problem that has many potential applications. How can we build an accurate and differentially private global classifier by combining locally-trained classifiers from different parties, without access to any party's private data? We propose to transfer the `knowledge' of the local classifier ensemble by first creating labeled data from auxiliary unlabeled data, and then train a global $ε$-differentially private classifier. We show that majority voting is too sensitive and therefore propose a new risk weighted by class probabilities estimated from the ensemble. Relative to a non-private solution, our private solution has a generalization error bounded by $O(ε^{-2}M^{-2})$ where $M$ is the number of parties. This allows strong privacy without performance loss when $M$ is large, such as in crowdsensing applications. We demonstrate the performance of our method with realistic tasks of activity recognition, network intrusion detection, and malicious URL detection.

研究动机与目标

在不暴露个体数据的前提下，实现由多个参与方持有的私有数据协同训练全局分类器。
解决参数平均方法的局限性，该方法不适用于非数值型模型，且在异构分类器类型之间缺乏灵活性。
减轻差分隐私在基于集成的学习中导致的性能退化，特别是在本地模型较弱或数量众多时。
为所有数据样本提供强隐私保证（$\epsilon$-差分隐私），而不仅限于单个记录。
开发一种可扩展且灵活的框架，支持混合分类器类型，并适用于众包感知等大规模去中心化学习场景。

提出的方法

从多个参与方收集本地训练的分类器，而不访问其私有数据。
利用本地分类器的集成在共享的辅助无标签数据集上生成软标签（类别概率），实现知识迁移而不暴露原始数据。
提出一种基于集成模型估计的类别概率加权的新风险函数，以降低对单个分类器投票的敏感度。
在经验风险最小化过程中应用输出扰动，以确保最终全局分类器满足 $\epsilon$-差分隐私。
使用可信聚合器收集本地模型，生成软标签，并通过差分隐私优化训练私有的全局模型。
利用类别概率估计的稳定性，设计一种对单个分类器投票不那么敏感的风险函数，从而改善隐私-准确率权衡。

实验结果

研究问题

RQ1我们能否在不共享私有数据的前提下，从本地训练的模型中训练出全局准确且具备差分隐私保护的分类器？
RQ2在基于集成的标签生成中，如何改进多数投票方法以降低敏感度，并在差分隐私约束下保持模型性能？
RQ3通过集成知识迁移训练的差分隐私全局分类器的泛化误差界是什么？其随参与方数量 $M$ 的变化趋势如何？
RQ4在强隐私约束下，该方法能否在真实应用场景（如活动识别、网络入侵检测和恶意URL检测）中保持高准确率？
RQ5基于类别概率的所提风险加权方案是否在隐私-准确率权衡方面优于传统的多数投票方法？

主要发现

所提方法相对于非私有解的泛化误差界为 $O(\epsilon^{-2}M^{-2})$，表明随着参与方数量 $M$ 增加，性能可快速收敛至最优。
在活动识别任务中，当 $M=1000$ 且每方仅 6 个样本时，软标签方法在 $1/\epsilon = 0.1$ 时达到 76% 的测试准确率，显著优于单个分类器（47%）和多数投票方法。
在网络入侵检测任务中，当 $M=20,000$ 时，软标签方法在 $1/\epsilon \approx 10$ 之前性能接近非私有批量模型，显著优于平均值和多数投票方法。
在仅每方 9 个样本的恶意URL检测任务中，软标签方法仍表现出强劲性能，证明其在低数据环境下具有鲁棒性。
多数投票方法对单个分类器投票高度敏感，导致在差分隐私下（尤其在低隐私预算下）失效。
所提基于集成类别概率的风险加权方案提供了一种稳定且不那么敏感的替代方案，优于确定性多数投票，从而实现更优的隐私-准确率权衡。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。