QUICK REVIEW

[论文解读] Differentially Private Algorithms for Empirical Machine Learning

Ben Stoddard, Yan Chen|arXiv (Cornell University)|Nov 20, 2014

Privacy-Preserving Technologies in Data参考文献 20被引用 21

一句话总结

本文提出了一种用于在实际机器学习工作流中进行特征选择和受试者工作特征曲线（ROC曲线）构建的差分隐私算法，实现了在私有数据集上隐私保护的模型训练与评估。通过应用私有预处理和新颖的加噪技术，作者显著提升了分类器的准确性——在某些情况下与非私有的基线方法相当——同时确保了端到端的差分隐私，且未牺牲实用性。

ABSTRACT

An important use of private data is to build machine learning classifiers. While there is a burgeoning literature on differentially private classification algorithms, we find that they are not practical in real applications due to two reasons. First, existing differentially private classifiers provide poor accuracy on real world datasets. Second, there is no known differentially private algorithm for empirically evaluating the private classifier on a private test dataset. In this paper, we develop differentially private algorithms that mirror real world empirical machine learning workflows. We consider the private classifier training algorithm as a blackbox. We present private algorithms for selecting features that are input to the classifier. Though adding a preprocessing step takes away some of the privacy budget from the actual classification process (thus potentially making it noisier and less accurate), we show that our novel preprocessing techniques significantly increase classifier accuracy on three real-world datasets. We also present the first private algorithms for empirically constructing receiver operating characteristic (ROC) curves on a private test set.

研究动机与目标

解决实际机器学习工作流中缺乏实用的差分隐私特征选择的问题。
开发首个用于在私有测试集上构建ROC曲线的差分隐私算法。
通过将隐私预算分配给预处理而非仅分类阶段，提升差分隐私分类器的准确性。
实现在差分隐私保护下的完整经验机器学习流程——包括特征选择、模型训练和评估。
通过将分类器视为黑箱，确保与现成的差分隐私分类器兼容，提升非专家用户的可用性。

提出的方法

提出私有阈值测试（PTT），一种新颖的差分隐私比较查询技术，通过仅发布二元结果（高于/低于阈值）来最小化噪声。
引入三种私有特征选择方法：对单个特征预测得分进行扰动、对特征进行聚类，以及使用PTT基于显著性阈值选择特征。
将ROC曲线生成的充分统计量建模为单边范围查询，以降低全局敏感度，从而实现低噪声的私有计算。
应用后处理技术以在私有ROC曲线上强制实现单调性，确保有效性的同时保持隐私保证。
采用黑箱方法进行分类器训练，支持与任何现有差分隐私分类器（如朴素贝叶斯、逻辑回归）兼容。
使用k-递归中位数及其他噪声机制实现差分隐私下的稳健估计，其中k设置为⌈log n⌉以获得最佳性能。

实验结果

研究问题

RQ1差分隐私特征选择是否能提升真实世界数据集上私有分类器的准确性？
RQ2是否可能在不泄露敏感信息的前提下，对私有测试集上的受试者工作特征曲线（ROC曲线）进行私有计算？
RQ3将部分隐私预算分配给预处理（特征选择）是否能带来比直接私有训练更好的整体模型准确性？
RQ4k-RecursiveMedians中k的选择如何影响私有ROC曲线估计的实用性？
RQ5私有阈值测试（PTT）在噪声效率和实用性方面是否优于现有技术（如SVT和noisycut）？

主要发现

在三个真实世界数据集上，私有特征选择显著提升了分类器的准确性，性能接近非私有基线方法。
所提出的私有阈值测试（PTT）技术在隐私边界上更紧密，且在实用性方面优于SVT和noisycut等竞争方法。
使用所提私有算法生成的ROC曲线在严格的差分隐私约束下仍保持高保真度和单调性。
k-RecursiveMedians中k的选择对AUC误差的影响不显著，表明⌈log n⌉是隐私预算分配的稳健默认设置。
先进行私有特征选择再进行私有分类，其性能优于在完整特征集上直接进行私有训练，证明了多步差分隐私工作流中预处理的优势。
私有特征选择与私有ROC评估的结合，实现了在敏感数据上的完整、隐私保护的经验机器学习流程。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。